J'essaie de mesurer l'accord entre deux systèmes de classification différents (l'un basé sur des algorithmes d'apprentissage automatique et l'autre basé sur la vérification au sol), et je Je cherche des commentaires de quelqu'un qui a mis en place un système similaire.Mesure des taux d'erreur entre les listes de classement
Le schéma de classification permet de classer chaque élément en plusieurs nœuds différents dans une taxonomie de catégorie, chaque classification portant un coefficient de pondération. Par exemple, si un élément peut être classé en quatre nœuds de taxonomie différentes, le résultat pourrait ressembler à ceci pour les classificateurs algorithmiques et rez-de-vérité:
ALGO TRUTH
CATEGORY A: 0.35 0.50
CATEGORY B: 0.30 0.30
CATEGORY C: 0.25 0.15
CATEGORY D: 0.10 0.05
Les poids toujours ajouter jusqu'à exactement 1.0, pour tous sélectionnés les nœuds de catégorie (dont il existe environ 200 dans la taxonomie de classification). Dans l'exemple ci-dessus, il est important de noter que les deux listes s'accordent sur l'ordre de classement (ABCD), elles doivent donc être considérées comme fortement en accord (même s'il y a des différences dans les poids assignés à chaque classe). . catégorie en revanche, dans l'exemple suivant, les deux classifications sont en désaccord avec la question de rang ordre.
ALGO TRUTH
CATEGORY A: 0.40 0.10
CATEGORY B: 0.35 0.15
CATEGORY C: 0.15 0.35
CATEGORY D: 0.10 0.40
Ainsi, un résultat comme celui-ci devrait obtenir un score très faible
un dernier exemple illustre un cas courant où la vérité au sol générée par l'utilisateur contient des valeurs de poids en double:
ALGO TRUTH
CATEGORY A: 0.40 0.50
CATEGORY B: 0.35 0.50
CATEGORY C: 0.15 0.00
CATEGORY D: 0.10 0.00
Il est donc important que l'algorithme permet des listes sans ordre de classement parfait (puisque la vérité du terrain pourrait être interprété valablement comme ABCD, ABCD, BACD ou BADC)
Stuff J'ai essayé jusqu'à présent:
Root Mean Squared Error (RMSE): Très problématique. Il ne tient pas compte de l'accord de classement, ce qui signifie que les désaccords bruts entre les catégories en haut de la liste sont balayés sous le tapis par un accord sur les catégories au bas de la liste.
Spearman's Rank Correlation: Bien qu'il prenne en compte les différences de rang, il donne un poids égal aux accords de classement en haut de la liste et ceux en bas de la liste. Je ne me soucie pas vraiment des écarts de bas niveau, tant que les écarts de haut niveau contribuent à la mesure de l'erreur. Il ne gère pas non plus les cas où plusieurs catégories peuvent avoir des rangs de liens.
Kendall Tau Rank Correlation Coefficient: A les mêmes propriétés et limitations de base que la corrélation de rang de Spearman, autant que je sache.
J'ai pensé à rouler mes propres mesures ad hoc, mais je ne suis pas mathématicien, donc je serais méfiant si ma petite mesure apporterait une valeur beaucoup plus rigoureuse. S'il y a une méthodologie standard pour ce genre de chose, je préfère l'utiliser.
Des idées?
Il serait certainement intéressant de poser cette question à [CrossValidated] (http://stats.stackexchange.com/) en plus d'ici. – walkytalky
Il y a beaucoup de façons de définir un nombre magique, mais pas moyen de définir un nombre magique à moins de savoir ce que vous essayez d'accomplir et comment vous comptez utiliser le nombre. –
Nous pouvons exclure RMSE, mais pas pour la raison donnée. Le carré de la différence entre deux probabilités n'a simplement aucun sens rationnel. RMSE a un sens si les nombres sont des mesures qui ont un bruit distribué gaussien. –