J'essaie de faire un certain (k-means) clustering sur une très grande matrice.en grappes sur de très grandes matrices éparses?
La matrice est d'environ 500000 lignes x 4000 cols mais très clairsemée (seulement quelques valeurs "1" par ligne). Je veux obtenir environ 2000 clusters.
J'ai deux questions: - Quelqu'un peut-il recommander une plate-forme open source ou un outil pour le faire (peut-être en utilisant k-means, peut-être avec quelque chose de mieux)? - Comment puis-je estimer le temps nécessaire à l'algorithme pour terminer? J'ai essayé weka une fois, mais avorté le travail après quelques jours parce que je ne pourrais pas dire combien de temps cela prendrait.
Merci!
Est-ce que c'est pour une application en temps réel ou pour votre propre développement personnel? – user373215
Reasked dans http://stackoverflow.com/questions/3039646/k-means-clustering-in-r-on-very-large-sparse-matrix. –