2009-10-12 12 views
0

Je cherche un paquet (n'importe quelle langue, vraiment) que je peux utiliser sur un corpus de 50 documents pour effectuer des tests de similitude interdocument dans diverses métriques, comme tfidf, okapi, modèles de langage, lsa, etc.Package pour comparer les métriques de LSA, TFIDF, Cosine et les modèles de langue

Je veux par conséquent une matrice de similarité de document, c'est à dire doc1 est x% similaire à doc2, etc ... Ceci est à des fins de recherche, pas pour la production. Je veux spécifiquement la matrice de similitude de document que je veux corréler cela avec les évaluations humaines.

Merci d'avance!

Répondre

0

Si vous connaissez python, vous pouvez utiliser http://www.nltk.org - il a tout ce dont vous avez besoin, et plus est la documentation et la langue de python