2010-05-27 35 views
1

Je dois créer un jeu de données à partir de certains fichiers texte, en les écrivant en tant que vecteurs de fonctions.Créer un jeu de données: extraire des entités à partir de documents texte (TF-IDF)

Quelque chose comme ceci:

doc1: 1,0.45 6,0.001 94,0.1 ... 

doc2: 3,0.5 98,0.2 ... 

... 

chaque position du vecteur représente un mot, et le score est donné par quelque chose comme TF-IDF.

Connaissez-vous une bibliothèque/outil/quoi que ce soit pour cela? (java est meilleur)

Répondre

0

mallet. y compris TF-IDF, POS, classification.

0

Bien sûr, il y a beaucoup, par exemple http://en.wikipedia.org/wiki/Lucene

Cependant

Je recommande que vous écrivez un système IR de base à partir de zéro. Regarder sous le capot est toujours une excellente expérience d'apprentissage.

+0

Je sais, mais mon temps est fini et TFIDF semble assez facile à mettre en œuvre – BigG

+0

je ne voulais pas dire que l'algorithme de TFIDF, je voulais dire bout à bout, à partir de l'analyse de fichiers, l'indexation à la recherche/classement, etc. – Darknight