Je travaille dans un projet de traitement du langage naturel. Il vise à construire des bibliothèques pour la langue arabe. Nous travaillons sur un tagger POS et maintenant je pense en phase de grammaire. Depuis la langue arabe et beaucoup d'autres ont compliqué la grammaire, il est donc très difficile de construire leur grammaire sans contexte (CFG). Pour cette raison, j'ai eu l'idée d'un algorithme pour construire un CFG (avec probabilité PCFG) pour n'importe quelle langue à partir d'un corpus de taggeurs en utilisant l'apprentissage non supervisé. Pour expliquer l'algorithme suppose que j'ai ces trois déclarations marquées comme entrée: 1- Verbe Noun 2- Verbe Noun Sujet 3- Verbe Noun Objet adverbe L'algorithme donne: 1) -> Verbe Noun 2) B -> A Sujet 3) adverbe C -> B.
Nous répétons cette méthodologie pour chaque instruction de sorte que nous pouvons terminer avec un PCFG spécifique. La puissance principale de l'algorithme se situe au-delà du fait de voir l'ensemble de l'énoncé, donc les probabilités peuvent être conditionnelles et elles sont spécifiques. Après cet algorithme CKY peut être appliqué pour choisir le meilleur arbre pour de nouvelles déclarations en utilisant des probabilités. Pensez-vous que cet algorithme est bon ou pas et vaut-il mieux continuer à l'améliorer.Générateur de langage naturel CFG Algorithm
Répondre
J'ai fait quelque chose de similaire pour mon M.Sc. thèse - apprentissage des règles CFG (sans probabilités) en utilisant une grammaire partielle et un étiquetage POS. Veuillez voir ma réponse à this question pour une liste de références sur l'apprentissage des PCFG. Une approche consiste à apprendre des grammaires lexicalisées, qui incluent des informations de mots avec le nom de noeud.
Il est difficile de répondre à votre question sans contexte: Que considéreriez-vous comme un bon algorithme? Celui qui donne un assez bon modèle de langage? Cela minimise une mesure statistique? C'est assez efficace? Étant donné la riche morphologie de l'arabe, vous pouvez peut-être ajouter de la morphologie à votre grammaire, par exemple. ajouter des fonctionnalités d'accord de genre et de nombre.