Récemment, je suis venu étudier le clustering dans l'exploration de données et j'ai étudié le clustering séquentiel et le clustering hiérarchique et les k-means. Je lis aussi une déclaration qui distingue k-means des deux autres techniques de clustering, en disant que k-means n'est pas très bon pour traiter les attributs nominaux, mais le texte n'a pas expliqué ce point. seule différence que je peux voir est que pour K-means, nous saurons à l'avance nous aurons besoin exactement de K clusters alors que nous ne savons pas combien de clusters nous avons besoin pour les deux autres méthodes de clustering. Est-ce que quelqu'un pourrait me donner une idée ici de la raison pour laquelle cette affirmation existe, c'est-à-dire que k-means a ce problème lorsqu'il s'agit d'exemples d'attributs nominaux et existe-t-il un moyen de surmonter cela?questions sur les méthodes de clustering
Merci d'avance.
Notez que nous prenons généralement la valeur majoritaire de la variable discrète lors du calcul des centroïdes de cluster. – Amro