hey tout juste de commencer sur Hadoop et curieux quelle est la meilleure façon MapReduce serait de compter les visiteurs uniques si vos fichiers journaux avaient l'air comme ça ...Quelle est la meilleure façon de compter les visiteurs uniques avec Hadoop?
DATE siteID action username
05-05-2010 siteA pageview jim
05-05-2010 siteB pageview tom
05-05-2010 siteA pageview jim
05-05-2010 siteB pageview bob
05-05-2010 siteA pageview mike
et pour chaque site que vous vouliez savoir la visiteurs uniques pour chaque site?
Je pensais que le mappeur émettrait le nom d'emplacement du site et le réducteur conserverait un set() des noms d'utilisateurs uniques par clé, puis émettrait la longueur de cet ensemble. Cependant, cela pourrait potentiellement stocker des millions de noms d'utilisateur dans la mémoire, ce qui ne semble pas correct. Quelqu'un a un meilleur moyen?
J'utilise le streaming de python par la façon dont
grâce