Je pose cette question car je me demande s'il peut être efficace d'exécuter des requêtes mapreduce sur une base de données ou un magasin de valeurs-clés partagé? Par exemple, pour implémenter un trawler Web, qui indexe Internet et compte tous les termes sur différentes pages Web, cela pourrait-il être fait efficacement avec une base de données comme back-end?Mapreduce peut-il fonctionner efficacement sur un espace de tuple partagé (par exemple: une base de données)?
Répondre
Bien sûr. HBase et d'autres magasins NoSql sont bien adaptés à cette tâche.
Voir ce article pour un aperçu général de l'utilisation de HBase avec MapReduce.
HBase est la base de données Hadoop. Utilisez-le lorsque vous avez besoin d'un accès en lecture/écriture aléatoire et en temps réel à vos données volumineuses ( ). L'objectif de ce projet est l'hébergement de très grandes tables - des milliards de lignes X millions de colonnes - sommet des clusters du matériel de base.
HBase est un open-source, distribué, magasin orientée colonne calquée sur Google BigTable »: Un système de stockage distribué pour les données structurées par Chang et al. Tout comme Bigtable exploite le stockage de données distribué fourni par le système de fichiers de Google, HBase fournit des capacités de type Bigtable au-dessus de Hadoop. HBase comprend:
• classes de base pratiques pour la sauvegarde emplois Hadoop MapReduce avec HBase tables
• pousser prédicat de la requête vers le bas par balayage latéral serveur et obtenir les filtres
• Optimisations pour requêtes en temps réel
• Une passerelle Thrift haute performance • Une passerelle de services Web REST-ful que prend en charge XML, Protobuf et binaires options d'encodage de données
• Cascading modules source et puits
• coquille extensible à base JRuby (JIRB)
• Prise en charge de l'exportation des métriques via le sous-système de métriques Hadoop vers des fichiers ou Ganglia; ou via JMX
Une base de données n'est pas une solution adéquate pour un style de revers de WebCrawler.
Vous voudrez peut-être lire cet article.
http://highscalability.com/how-rackspace-now-uses-mapreduce-and-hadoop-query-terabytes-data
Merci, N.
J'ai lu l'article, mais pourquoi cela signifie-t-il qu'une base de données ne peut pas gérer la charge? – Zubair
Il est peut-être préférable de mettre votre "can MapReduce do X?" questions ensemble, plutôt que d'en poster plusieurs. – skaffman
Ok, merci @skaffman, je vais reformuler la question – Zubair
Avez-vous regardé comment Nutch fait ça? http://lucene.apache.org/nutch/ –