2009-11-08 22 views
0

J'essaye d'analyser du texte et de le schématiser, comme vous le feriez d'une phrase. Je suis nouveau à NLTK et j'essaie de trouver quelque chose en NLTK qui m'aidera à accomplir ceci. Jusqu'à présent, j'ai vu nltk.ne_chunk et nltk.pos_tag. Je les trouve pas très utiles et je ne trouve pas de bonne documentation en ligne.découpage/analyse de texte en utilisant NLTK

J'ai également essayé d'utiliser le LancasterStemmer, mais je ne comprends pas complètement ce qu'il fait ou comment il devrait être utilisé ou pourquoi il existe même.

Quelqu'un peut-il m'aider s'il vous plaît avec ceci? Je suis vraiment perdu et je me sens très frustré sans aucune lumière directrice.

Merci à l'avance

+0

Qu'essayez-vous d'accomplir exactement? Avez-vous réellement besoin d'une analyse sémantique, ou simplement d'une analyse lexicale? Quel est le digramme que vous essayez de produire? –

+0

En fin de compte, je veux être en mesure de créer un "arbre" qui représente les données dans le texte. Une fois cela fait, je peux faire la même chose pour un autre texte (sur le même sujet - disons une conférence) et comparer où les deux sont similaires/différents et incorporer les différences. Cela peut finalement donner un "arbre" qui a la représentation la plus précise de cette conférence – inspectorG4dget

Répondre

1

Ce que vous décrivez est en fait une tâche vraiment difficile, comme à la fin, si votre programme a réussi ou échoué est une mesure tout à fait subjective. Lorsque c'est le cas, cela signifie généralement que la construction d'un programme pour résoudre le problème est difficile. Il y a des gens qui sont payés pour travailler sur ces problèmes dans les universités. Si vous voulez essayer, essayez d'utiliser un outil d'analyse lexicale automatisé plutôt que d'essayer d'analyser et d'annoter manuellement, puis de tirer parti de votre arbre d'analyse. Habituellement, les arbres d'analyse représentent des analyses syntaxiques, c'est-à-dire la structure de la phrase. D'un autre côté, vous vous intéressez plutôt à l'analyse sémantique, c'est-à-dire à ce que cela signifie - ou du moins si deux phrases sont similaires ou différentes (ce qui est en réalité un peu plus facile que ce que signifie quelque chose).

Vous pouvez vous intéresser à certains outils de synthèse automatique disponibles sur le marché. Ils tentent de marquer des phrases en fonction de leur importance pour un texte et filtrent les phrases qui sont moins importantes qu'un seuil spécifié. Non que cela vous aide vraiment autant que vous avez toujours le problème de la nécessité de fusionner les résumés.

+0

Merci. En ce moment, j'essaie d'obtenir la structure syntaxique d'une phrase pour que je puisse faire l'analyse sémantique plus tard. S'il vous plaît dites-moi si je vais dans la mauvaise direction parce que je suis encore un étudiant et je ne suis pas un expert et j'apprécierais ces commentaires. Dans les deux cas, recommanderiez-vous un outil/module nltk particulier pour vous aider? – inspectorG4dget

+0

Si je devais faire un pas à cette tâche, je ne suis pas sûr que je m'embêterais avec l'analyse. Je pense que vous feriez mieux d'utiliser une approche statistique qui utilise généralement une approche de sac de mots (ou similaire). C'est ce que cela ressemble, juste en traitant chaque phrase comme une pile de mots et ne pas s'inquiéter du positionnement des mots. Certaines technologies susceptibles de vous aider sont les approches basées sur le clustering et éventuellement TF-IDF. Peut-être lisez-les et voyez si vous pensez qu'ils pourraient vous aider. NLTK a des modules pour les deux. – nedned

+0

Merci humble café. Est-il possible cependant que vous puissiez me diriger vers un module nltk spécifique? Peut-être que quelque chose que vous avez utilisé et que vous pensez pourrait être approprié pour mon problème? – inspectorG4dget