J'utilise mahout pour regrouper des documents texte indexés en utilisant solr.identifier les documents à partir des résultats de mahout clustering
J'ai utilisé le champ "texte" dans le document pour former des vecteurs. Ensuite, j'ai utilisé le pilote k-means dans mahout pour le clustering, puis l'utilitaire clusterdumper pour vider les résultats.
J'ai des difficultés à comprendre les résultats de sortie du dumper. Je pouvais voir les groupes formés avec des vecteurs à terme dans ces groupes. Mais comment puis-je extraire les documents de ces clusters. Je veux que le résultat soit les documents d'entrée apparaissant dans différents groupes.
Je cherche également une réponse à cette question. Cette discussion: http://www.lucidimagination.com/search/document/dab8c1f3c3addcfe/validating_clustering_output semble impliquer ce problème est ouvert, avec un patch mis en œuvre Mahout 0,5 ici, issues.apache.org/jira/browse/MAHOUT-236. –