2009-11-25 7 views
10

Comment puis-je dire à NLTK de traiter le texte dans une langue particulière?peut NLTK/pyNLTK travail "par langue" (c'est-à-dire non-anglais), et comment?

De temps en temps, j'écris une routine PNL spécialisée pour faire du marquage POS, de la segmentation des jetons, etc. sur un domaine de texte non anglais (mais encore hindo-européen).

Cette question semble répondre que différents corpus, pas le changement dans le code/paramètres: POS tagging in German

Alternativement, sont là tous les modules PNL spécialisés en hébreu/espagnol/polonais pour python?

Répondre

8

Je ne suis pas sûr de ce que vous appelez les changements de code/paramètres. NLTK repose principalement sur l'apprentissage automatique et les "paramètres" sont généralement extraits des données d'apprentissage.

En ce qui concerne le marquage POS, les résultats et le marquage dépendent du tagger que vous utilisez/entraînez. Si vous vous entraînez vous-même, vous aurez bien sûr besoin de données d'entraînement en espagnol/polonais. La raison pour laquelle ceux-ci pourraient être difficiles à trouver est le manque de matériel d'étalon-or disponible au public. Il existe des outils pour faire cela, mais celui-ci n'est pas pour python (http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/). Le marqueur de taille nltk.tokenize.punkt.PunktSentenceTokenizer marquera les phrases selon des limites de phrases multilingues dont les détails peuvent être trouvés dans cet article (http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.4.485).

+0

merci. le tokenizer phrase punkt semble la bonne direction. –

+0

Comment fonctionne Treetagger? http://stackoverflow.com/questions/15503388/treetagger-installation-successful-but-cannot-open-par-file – alvas