Je dois créer un jeu de données à partir de certains fichiers texte, en les écrivant en tant que vecteurs de fonctions.Créer un jeu de données: extraire des entités à partir de documents texte (TF-IDF)
Quelque chose comme ceci:
doc1: 1,0.45 6,0.001 94,0.1 ...
doc2: 3,0.5 98,0.2 ...
...
chaque position du vecteur représente un mot, et le score est donné par quelque chose comme TF-IDF.
Connaissez-vous une bibliothèque/outil/quoi que ce soit pour cela? (java est meilleur)
Je sais, mais mon temps est fini et TFIDF semble assez facile à mettre en œuvre – BigG
je ne voulais pas dire que l'algorithme de TFIDF, je voulais dire bout à bout, à partir de l'analyse de fichiers, l'indexation à la recherche/classement, etc. – Darknight