jueves, 27 de octubre de 2022

Detecció de duplicats en llistes - FuzzyWuzzy (Python)

from fuzzywuzzy import fuzz

with open('C:/Users/JF/Desktop/llistaNoms.txt','r',encoding='utf-8') as f:
    my_list = list(f)

for i in range(len(my_list)-1):
    for j in range(i+1,len(my_list)):
        Str1=(my_list[i])
        Str2=(my_list[j])
        Ratio = fuzz.ratio(Str1.lower(),Str2.lower())
        Partial_Ratio = fuzz.partial_ratio(Str1.lower(),Str2.lower())
        Token_Sort_Ratio = fuzz.token_sort_ratio(Str1,Str2)
        Token_Set_Ratio = fuzz.token_set_ratio(Str1,Str2)
        
        if (Ratio>80)|(Partial_Ratio>80)|(Token_Sort_Ratio>80)|(Token_Set_Ratio>80):
            print(i+1,j+1, Ratio, Partial_Ratio,Token_Sort_Ratio,Token_Set_Ratio)

No hay comentarios:

Publicar un comentario