2009-08-20 7 views
6

notre webapp recueille énorme quantité de données sur les actions des utilisateurs, les entreprises de réseau, charge de base de données, etc etc etcmeilleure façon de détecter statistiquement les anomalies dans les données

Toutes les données sont stockées dans les entrepôts et nous avons beaucoup de points de vue intéressants sur ces données.

Si quelque chose d'étrange se produit, les chances sont, il apparaît quelque part dans les données. Cependant, pour détecter manuellement si quelque chose hors de l'ordinaire se passe, il faut continuellement regarder à travers ces données, et rechercher des bizarreries.

Ma question: quelle est la meilleure façon de détecter les changements dans les données dynamiques qui peuvent être considérées comme «hors de l'ordinaire».

Est-ce que les filtres Bayesan (que j'ai vus mentionnés lors de la lecture sur la détection de spam) sont le chemin à parcourir?

Tout pointeur serait génial!

EDIT: Pour clarifier les données, par exemple, affiche une courbe quotidienne de charge de base de données. Cette courbe ressemble généralement à la courbe d'hier Avec le temps, cette courbe pourrait changer lentement.

Il serait bien que si la courbe de changement de jour à jour dise à l'intérieur de certains périmètres, un avertissement pourrait se déclencher.

R

Répondre

1

classification bayésienne pourrait vous aide à trouver des anomalies dans vos données, en fonction du type de données et comment vous vous entraînez votre filtre bayésien.

Il y en a même un disponible en tant que service Web @uClassify.com.

1

Cela dépend tellement de ce que sont les données. Prenez un cours de statistiques et apprenez les bases en premier. Ce n'est généralement pas un problème facile ou simple.

+2

bonne réponse. Vraiment utile; ^) – Toad

+0

Ou même une question bien posée. Que voulez-vous dire exactement par anomalie de toute façon? –

+0

c'est une bonne question – user1471980

5

Jetez un oeil à Control Charts, ils fournissent un moyen de suivre visuellement les changements dans vos données et de spécifier quand les données sont «hors de contrôle» ou «anomalie». Ils sont fortement utilisés dans la fabrication pour assurer le contrôle de qualité.

4

Cette question est impossible de répondre sans en savoir plus sur les données que vous avez. Pour un aperçu des types d'approches disponibles, voir Anomaly Detection: A Survey par Chandola, Banerjee et Kumar.