2010-06-24 14 views
3

Je fais de l'exploration de données sur des données de séries temporelles. J'ai besoin de calculer la distance ou la similitude entre deux séries de dimensions égales. On m'a suggéré d'utiliser la distance euclidienne, la similarité Cos ou la distance de Mahalanobis. Les deux premiers n'ont donné aucune information utile. Je n'arrive pas à comprendre les différents tutoriels sur le web.Comment calculer la distance de Mahalanobis entre deux séries chronologiques de dimensions égales?

Ainsi,

Étant donné deux vecteurs A (a1, a2, a3, ..., an) et B (b1, b2, b3, ..., bn) comment trouvez-vous la distance Mahalanobis entre eux?

(j'ai reçu des conseils sur l'utilisation de ces mesures de distance sur SO lui-même, et il y a une question sur la façon de calculer la similarité Cos, donc s'il vous plaît considérer avant de clore cette question)

+0

Pour calculer la distance de Mahalanobis, vous avez besoin d'informations sur les corrélations entre vos coordonnées vectorielles en tant que variables aléatoires (c.-à-d. Comment a2 dépend de a1, etc.). avez-vous cette information? Si vous avez assez de points, vous pouvez éventuellement estimer les corrélations ... – Jens

Répondre

7

Vous devez estimer la matrice de covariance. Les articles connexes dans Wikipedia sont this et this.

Pour les vecteurs multidimensionnels (n observations d'une variable de dimension p), la formule de la distance de Mahalanobis est

alt text

Lorsque le S est l'inverse de la matrice de covariance, qui peut être estimée comme :

alt text

alt text est l'observation i-ième de la (p-dimensionnelle) variable aléatoire et

alt text

Soyez prudent qu'utiliser la distance Mahalanobis entre vos vecteurs de sens que si tous vos vecteurs valeurs attendues sont les mêmes. J'ai toujours pensé que la distance de Mahalanobis est utilisée uniquement pour classer les données et détecter les valeurs aberrantes, telles que le rejet de données expérimentales (sorte de tests vrai/faux). Jamais entendu parler de l'utiliser comme une distance "analogique".

HTH!

+0

Oh, donc d'abord nous devons créer la matrice de covariance basée sur TOUTES nos expériences, et ensuite utiliser cette matrice pour la distance? Wow, merci beaucoup pour cette explication! – VMAtm