Traitement des différentes versions non accentuées des caractères Umlaut

Les caractères trémas accentués allemands "ö", "ä" et "ü" sont souvent remplacés par des versions non accentuées lorsque les utilisateurs tapent, souvent par commodité lorsqu'ils n'ont pas la bonne clavier.Traitement des différentes versions non accentuées des caractères Umlaut

Avec la plupart des caractères accentués, il existe une version particulière non accentuée que la plupart des gens utilisent. L'accent "è", par exemple, est toujours remplacé par un "e" standard. Avec les caractères Umlaut, il semble y avoir une différence entre la convention adoptée par nos utilisateurs britanniques et américains. Les utilisateurs britanniques les remplaceront par "o", "a" et "u" respectivement, où ...
Les utilisateurs américains les remplaceront par "oe", "ae" et "ue" respectivement. Comme pour tout cadre de recherche, la technique utilisée pour associer toutes les combinaisons de caractères accentués consiste à les remplacer, à la fois lors de la création de l'index et lors de la fourniture des critères de recherche, permettant ainsi à correspondant à faire avec des caractères purement non-accentués.

Comment pourrais-je analyser les caractères accentués afin de soutenir les éléments suivants ...

A types de clients allemands - « Götz »
A types de clients britanniques - « Gotz »
Un types de clients américains « Goetz "

Étant donné que le nom est dans notre base de données dans sa forme correcte de" Götz ", alors comment j'analyserais" Götz "pour que tous les trois utilisateurs puissent le trouver dans l'index?

EDIT

J'ai trouvé cet article sur CodeProject qui était exactement ce que je cherchais. L'exemple montre comment les synonymes pour les mots peuvent également être ajoutés à l'index Lucene afin qu'ils soient appariés ainsi que le mot d'origine. Avec une petite adaptation, j'ai été capable de faire exactement ce que je voulais.

Source

2010-06-25 Andy McCluggage

J'ai trouvé cet article sur CodeProject c'était exactement ce que je cherchais. L'exemple montre comment les synonymes pour les mots peuvent également être ajoutés à l'index Lucene afin qu'ils soient appariés ainsi que le mot d'origine. Avec une petite adaptation, j'ai été capable de faire exactement ce que je voulais.

Source

2011-09-16 12:21:16

Ajouté ceci à partir de ma question Modifier afin qu'il y ait une réponse acceptée à cette question. –

Convertir "Götz" à la fois "Gotz" et "Goetz" au moment de l'index. Vous pouvez utiliser setPositionIncrement(0) sur le second terme pour que les recherches d'expressions fonctionnent correctement.

Source

2010-06-25 18:17:33 KenE

Merci beaucoup pour la suggestion. Cela m'a mis sur la bonne voie, ce qui m'a permis de trouver un bon article sur CodeProject qui correspondait exactement à ce dont j'avais besoin. Voir ci-dessus –

Traitement des différentes versions non accentuées des caractères Umlaut

Répondre

Questions connexes