2010-05-01 7 views
1

Il s'agit d'une question sur l'algorithme de classification k-means. J'ai les points suivants et le regroupement des données S1. Quelqu'un peut-il me dire comment calculer l'erreur totale associée à ce regroupement? Je sais que ce n'est pas une question strictement de programmation, mais j'en ai besoin pour mon algorithme. Je pense que la réponse devrait être 4/3 mais je ne sais pas comment calculer cela. Quelqu'un peut-il m'aider?Comment calculer une mesure d'une erreur totale dans ce regroupement

x1= (2.0,1.0) 
x2= (2.0,2.0) 
x3= (1.0,2.0) 

S1={ x1, x2, x3 } 

Répondre

2

Il existe plusieurs façons de calculer l'erreur. En voici un.

Calculez d'abord le centroïde de l'ensemble, C1 = (x1 + x2 + x3)/3. Calculez ensuite l'erreur comme la somme des distances du centroïde: E1 = d (C1-x1) + d (C1-x2) + d (C1-x3).

1

J'ai dû chercher quelque chose de similaire au cours des deux dernières semaines. Comme pour la plupart des choses, trouver le bon nom a grandement aidé. Vous recherchez un indice de validité des grappes. J'ai trouvé une source utile pour les algorithmes (et les mathématiques associées) au chapitre 17 de la théorie, des algorithmes et des applications de la mise en grappe de données de Gan, Ma et Wu. Pas cher à 100 $ + d'Amazon mais je trouverai le reste du livre utile. Bien qu'il couvre un grand nombre de ces indices, il manque une bonne discussion sur les forces et les faiblesses, de sorte que vous avez besoin d'une recherche en ligne. En fin de compte, j'ai essayé l'indice Davies Bouldin et l'indice Dunn's. Dunn fonctionnait mieux mais était très lent à calculer. Je me suis contenté d'une version simplifiée qui utilisait des distances centroïdes-centroïdes (plutôt que des distances point-point) et un rayon maximum du centroïde, plutôt que le vrai diamètre. Jusqu'à présent, cela fonctionne bien pour moi.

La plupart des différents indices utilisent des mesures de taille et de séparation de grappe.