2010-11-30 14 views
2

Je suis nouveau à la PNL et je cherche un point de départ, en termes de tutoriels, de documentation ou d'exemple de code. On m'a dit d'étudier les possibilités de traitement du texte naturel pour en extraire des données structurées. Par exemple, je veux extraire (annoter) la hauteur et le poids des instructions suivantes. "Il a 6 pieds de haut et pèse 200 livres" ou "Sa taille est de 6 pieds et son poids est de 200" etc J'ai regardé dans UIMA mais il semble être un dictionnaire REGEX auto-créé sans capacités d'entraînement. Donc, en un mot, quel framework Java puis-je utiliser pour créer un moteur d'annotation qui peut aussi être entraîné! Toute aide (pointeur) sera fortement appréciée. MerciNouveau en PNL, Question sur l'annotation

+0

btw. Pour en savoir plus sur le début de l'art dans les techniques d'extraction de l'information, je recommande de lire un récent sondage de Sunita Sarawagi - http://osm.cs.byu.edu/CS652s09/papers/Sarawagi.ieSurvey.pdf – Skarab

Répondre

2

Si vous voulez vraiment utiliser l'apprentissage automatique pour former votre annotateur, alors GATE est probablement votre meilleur pari. Jetez un oeil au chapitre sur machine learning dans leur guide.

+0

Hey Merci beaucoup. – Sap

+0

@NLP n'oubliez pas d'upvote réponse de StompChicken, si vous le trouvez utile. – dmcer

3

Depuis que vous avez demandé des pointeurs: LingPipe (déjà mentionnés ci-dessus), OpenNLP et Stanford NLP distributions. Remarque: si Python est une option, vous pouvez utiliser Natural Language Toolkit.

+1

+1, le meilleur départ est d'opter pour des frameworks de programmation NLP car, à ce stade, un débutant n'a pas besoin de perdre du temps pour entrer dans les détails architecturaux de solutions, telles que GATE ou apache UIMA. – Skarab

+0

@Skarab Je ne suis pas d'accord, @NLP déclare qu'il veut créer un moteur d'annotation pour l'extraction de faits et c'est exactement pour cela que GATE et UIMA sont conçus. Les bibliothèques mentionnées ci-dessus feront l'analyse lexicale et syntaxique mais il y a encore beaucoup de travail à faire après cela. – Stompchicken

+0

@StompChicken Récemment j'ai guidé un projet d'étudiant et les participants ont décidé d'utiliser Apache UIMA. Cela leur a vraiment pris beaucoup de temps, avant qu'ils aient appris assez pour construire les premiers vrais pipelines d'extraction. Personnellement j'utilise UIMA et je peux le recommander mais après avoir obtenu la première expérience avec lingpipe ou Natural Language Toolkit. – Skarab