6

Récemment, je suis venu étudier le clustering dans l'exploration de données et j'ai étudié le clustering séquentiel et le clustering hiérarchique et les k-means. Je lis aussi une déclaration qui distingue k-means des deux autres techniques de clustering, en disant que k-means n'est pas très bon pour traiter les attributs nominaux, mais le texte n'a pas expliqué ce point. seule différence que je peux voir est que pour K-means, nous saurons à l'avance nous aurons besoin exactement de K clusters alors que nous ne savons pas combien de clusters nous avons besoin pour les deux autres méthodes de clustering. Est-ce que quelqu'un pourrait me donner une idée ici de la raison pour laquelle cette affirmation existe, c'est-à-dire que k-means a ce problème lorsqu'il s'agit d'exemples d'attributs nominaux et existe-t-il un moyen de surmonter cela?questions sur les méthodes de clustering

Merci d'avance.

Répondre

5

L'algorithme k-means calcule les centroïdes de cluster en prenant les valeurs moyennes de tous les points du cluster. Si un paramètre est nominal, vous ne pouvez pas prendre une valeur moyenne. Parfois, les valeurs nominales peuvent être placées dans une sorte d'ordre, puis mappées à des valeurs réelles. Par exemple, les jours de la semaine peuvent être mappés sur la plage [1.0 - 7.0], mais parfois cela n'est pas toujours possible, par exemple un attribut avec des valeurs [Windows, Linux, OSX].

+0

Notez que nous prenons généralement la valeur majoritaire de la variable discrète lors du calcul des centroïdes de cluster. – Amro