2009-01-29 3 views
26

Quel est le meilleur algorithme de correspondance floue (Fuzzy Logic, N-Gram, Levenstein, Soundex ....) pour traiter plus de 100 000 enregistrements en moins de temps?Meilleur algorithme de correspondance floue?

+0

J'imagine que ce que @Mitch Wheat * voulait dire était qu'il serait très difficile de donner une réponse définitive à cette question, puisque la meilleure solution sera dépend fortement des caractéristiques de votre entrée et de l'architecture du système. Comme Tim mentionné dans sa réponse, vous devriez lire sur les forces et les faiblesses de ces algorithmes, puis tester ceux qui vous semblent appropriés. – DougW

Répondre

21

Je vous suggère de lire les articles de Navarro mentionnés dans la section Refences de l'article Wikipedia intitulé Approximate string matching. Prendre votre décision basée sur la recherche réelle est toujours mieux que sur des suggestions par des étrangers aléatoires .. Surtout si la performance sur un ensemble d'enregistrements connus est important pour vous.

3

Cela dépend massivement de vos données. Certains enregistrements peuvent être mieux adaptés que d'autres. Par exemple, le code postal est un format défini qui peut donc être comparé différemment aux chaînes normales. Les gens peuvent être appariés sur les initiales et la DOB, ou d'autres combinaisons, etc.