Les caractères trémas accentués allemands "ö", "ä" et "ü" sont souvent remplacés par des versions non accentuées lorsque les utilisateurs tapent, souvent par commodité lorsqu'ils n'ont pas la bonne clavier.Traitement des différentes versions non accentuées des caractères Umlaut
Avec la plupart des caractères accentués, il existe une version particulière non accentuée que la plupart des gens utilisent. L'accent "è", par exemple, est toujours remplacé par un "e" standard. Avec les caractères Umlaut, il semble y avoir une différence entre la convention adoptée par nos utilisateurs britanniques et américains. Les utilisateurs britanniques les remplaceront par "o", "a" et "u" respectivement, où ...
Les utilisateurs américains les remplaceront par "oe", "ae" et "ue" respectivement. Comme pour tout cadre de recherche, la technique utilisée pour associer toutes les combinaisons de caractères accentués consiste à les remplacer, à la fois lors de la création de l'index et lors de la fourniture des critères de recherche, permettant ainsi à correspondant à faire avec des caractères purement non-accentués.
Comment pourrais-je analyser les caractères accentués afin de soutenir les éléments suivants ...
A types de clients allemands - « Götz »
A types de clients britanniques - « Gotz »
Un types de clients américains « Goetz "
Étant donné que le nom est dans notre base de données dans sa forme correcte de" Götz ", alors comment j'analyserais" Götz "pour que tous les trois utilisateurs puissent le trouver dans l'index?
EDIT
J'ai trouvé cet article sur CodeProject qui était exactement ce que je cherchais. L'exemple montre comment les synonymes pour les mots peuvent également être ajoutés à l'index Lucene afin qu'ils soient appariés ainsi que le mot d'origine. Avec une petite adaptation, j'ai été capable de faire exactement ce que je voulais.
Ajouté ceci à partir de ma question Modifier afin qu'il y ait une réponse acceptée à cette question. –