Quelqu'un a-t-il essayé d'appliquer un lissage à la métrique d'évaluation avant d'appliquer la méthode L pour déterminer le nombre de grappes k-means dans un ensemble de données? Si oui, a-t-il amélioré les résultats? Ou permettre un nombre inférieur d'essais k-means et donc beaucoup plus grande augmentation de la vitesse? Quel algorithme/méthode de lissage avez-vous utilisé?Utilisation d'un lisseur avec la méthode L pour déterminer le nombre de grappes K-Means
« L-Méthode » est détaillée dans: Determining the Number of Clusters/Segments in Hierarchical Clustering/Segmentation Algorithms, Salvador & Chan
Ce calcule la métrique d'évaluation pour une gamme de différents chefs de grappes d'essai. Ensuite, pour trouver le genou (qui se produit pour un nombre optimal de grappes), deux droites sont ajustées en utilisant la régression linéaire. Un processus itératif simple est appliqué pour améliorer l'ajustement du genou - il utilise les calculs de métriques d'évaluation existants et ne nécessite aucune répétition des k-means.
Pour la métrique d'évaluation, j'utilise une réciproque d'une version simplifiée de l'indice de Dunns. Simplifié pour la vitesse (en gros mon diamètre et les calculs inter-cluster sont simplifiés). La réciprocité est telle que l'index fonctionne dans la bonne direction (c'est-à-dire que le bas est généralement meilleur). K-means est un algorithme stochastique, donc typiquement il est exécuté plusieurs fois et le meilleur ajustement est choisi. Cela fonctionne plutôt bien, mais lorsque vous faites cela pour les clusters 1..N, le temps s'écoule rapidement. Il est donc dans mon intérêt de contrôler le nombre de courses. Le temps de traitement global peut déterminer si ma mise en œuvre est pratique ou non - je peux abandonner cette fonctionnalité si je ne peux pas l'accélérer.
Thinking à ce sujet, je ne pense pas qu'un lissoir pair (c'est-à-dire courant moyen) aurait un effet notable, parce que la méthode L correspond alors aux lignes utilisant les moindres carrés. Cependant, un lissoir en forme comme un gaussien pourrait se comporter différemment. Je vais essayer de mettre en place un gaussien de taille modérée (la demi-largeur d'environ 6-10 me semble juste). Cela va être un test qualitatif. – winwaed
Je pense que ce sera un bon projet de recherche de taille moyenne. S'il y a des étudiants à la recherche d'un projet, je serais intéressé par la collaboration/le mentorat/la co-création. Un tel projet devrait effectuer des comparaisons quantitatives et être plus général que mon application spécifique. Je vais ajouter la balise project-ideas à la question. – winwaed
J'ai des résultats très approximatifs, non scientifiques et qualitatifs: j'ai essayé les filtres gaussiens de HalfWidthHalfHeight de 5 et 3. Dans les deux cas, cela a augmenté le nombre estimé de clusters, mais l'erreur estimée a baissé avec chaque configuration). Ce sont des données du monde réel, et une augmentation de l'estimation est plausible. Donc, je pense que cela fournit assez pour justifier un mini projet de recherche avec des données contrôlées et dans de meilleures conditions. – winwaed