Je filtre les messages de discussion sur un système de discussion où les chaînes contraignantes vers Latin-1 English sont souhaitables. Les utilisateurs ont tendance à utiliser le typage créatif, par ex.Comment filtrer les messages de discussion en normalisant les formulaires de lettres?
ßòógīě§
au lieu de
Boogies
En Java, il existe des méthodes de normalisation unicode qui peut enlever les marques diacritiques, mais je suis plus intéressé par les méthodes de normaliser les formes des lettres vers l'anglais, et Jeu de caractères Latin-1.
Existe-t-il des tables, des bibliothèques ou des méthodes permettant de mapper visuellement les caractères unicode les plus courants en dehors de Latin-1? Par exemple.
ß -> B
§ -> S
¥ -> Y
¤ -> o
Je pense que la réponse est « Non, ce serait trop grand, il suffit de les filtrer tous à la place » mais je peux espérer ...
Je suppose que la même chose, si le jeu de caractères est petit, vous pouvez les mapper manuellement en maintenant un hashmap –
Allez-vous remplacer 'straße' par' strabe'? Les Allemands ne seront pas d'accord. – axtavt
Après la suppression de la marque diacritique, vous devez absolument écrire votre propre table de correspondance supplémentaire. Il n'y a pas de standard possible pour les "caractères qui ressemblent un peu à d'autres caractères de base ASCII mais qui n'ont rien à voir avec eux" comme ceux de l'exemple. Mais oui, je suis d'accord avec Michael: le filtrage est essentiellement futile. Vous ne serez jamais capable de bloquer toutes les façons de déguiser un "mauvais" mot, et plus vous essayez, plus vous allez raté et bloquer les "bons" mots. – bobince