2010-06-23 19 views

Répondre

2

outils de correction d'orthographe prennent les mots mal orthographiés et offrent des solutions de rechange possibles correctement orthographiés. Vous semblez vouloir aller dans l'autre direction. Passer d'un mot correctement orthographié à un ensemble de possibles erreurs possibles pourraient probablement être effectuées en appliquant un ensemble d'heuristiques de mutation aux mots communs. Ces heuristiques pourraient faire des choses comme:

  • ajout ou la suppression des caractères uniques au hasard
  • appliquent au hasard transpositions des paires de caractères
  • changeants des personnages à d'autres caractères basés sur les dispositions de clavier
  • application de commun « point » fautes d'orthographe; par exemple. transposer "ie" en "ei", en doublant ou en redoublant "l" s.

Passer d'un mot correctement orthographié à un ensemble de commun est vraiment difficile de fautes d'orthographe. Probablement le seul moyen fiable de le faire serait d'instrumenter un paquet de vérificateur d'orthographe utilisé par une grande communauté d'utilisateurs, d'enregistrer les corrections d'orthographe réelles faites en utilisant le vérificateur d'orthographe et d'agréger les résultats. C'est probablement (!) Au-delà de la portée de votre projet. En revisitant ma réponse, je pense que j'ai raté quelque chose.

Mes heuristiques ci-dessus sont principalement pour les erreurs de frappe plutôt que les fautes d'orthographe. Une erreur de frappe est lorsque l'utilisateur connaît l'orthographe correcte, mais a mal saisi le mot. Une faute d'orthographe est lorsque la personne ne sait pas l'orthographe correcte d'un mot, et utilise soit la connaissance incorrecte ou l'intuition (c'est-à-dire une supposition). Les suppositions typiques sont basées sur l'écoute de ce que le mot ressemble, et ensuite choisir une orthographe qui (si elle est correcte) serait probablement prononcée de cette façon. Donc, une bonne heuristique pour prédire les fautes d'orthographe devrait être basée sur ce que le mot sonne réellement quand il est prononcé. Cela nécessite un dictionnaire phonétique (pour passer du mot actuel à sa prononciation) et un ensemble de règles pour générer des orthographes plausibles pour le mot phonétique. C'est plus compliqué que de simples heuristiques pour les erreurs de frappe.