Afin d'effectuer un algorithme de classification simple sur les résultats que je reçois de Lucene, je dois calculer la similarité des Cosinus entre 2 documents dans Lucene, je dois aussi être capable de faire un document centroïde représenter le centroïde de chaque groupe. Tout ce que je peux penser à faire est de construire mon propre modèle d'espace vectoriel avec une pondération tf-idf, en utilisant les fréquences TermFreqVectors et Overall Term pour le peupler.Calculer la similarité entre et centroïde des documents de Lucene
Ma question est: Ce n'est pas une approche efficace, existe-t-il une meilleure façon de le faire?
Cela me semble un peu confus donc toutes les suggestions sur la façon dont je peux améliorer ma question sont également appréciées.
Désolé de vous cogner comme ceci, mais comment avez-vous résolu le problème? Avez-vous dû mettre en œuvre tout seul, ou avez-vous été en mesure de réutiliser des composants existants cachés de Lucene? Merci – Marko