2010-08-17 16 views
3

Je développe un Web Crawler, ce qui est bon pour stocker des données? Cassandra ou Hadoop Hive ou MySQL? Et pourquoi? J'ai 1 To de données des 6 derniers mois dans ma base de données MySQL, j'ai besoin de les indexer et j'ai besoin de sortir dans ma recherche dès que possible, et comme je pense, il sera stocker plus de quantité de données, comme 10 Peta Byes comme mon robot fonctionne rapidement, j'ai besoin d'obtenir l'opération de lecture/écriture rapide, je dois l'intégrer dans mon application PHPCassandra ou Hadoop Hive ou MYSQL?

+4

Tous. Cela dépend de vos besoins, que vous n'avez pas décrits. – Mchl

Répondre

3

Cela dépend des détails de vos besoins, mais Je pense que dans votre cas, HBase serait la meilleure option.
L'utilisation de HBase en tant que base de données de robot d'exploration est bien documentée et c'est l'utilisation de HBase qui est décrite dans le livre blanc de BigTable.

0

Vous cherchez quelque chose qui est destiné à la recherche de documents en fonction de leur contenu - il devrait être basé sur un index inversé. Je pense que l'ajustement le plus naturel serait Lucene.

Voir aussi this article sur une pile Hadoop-Lucene pour effectuer des requêtes téraoctets de documents.

0

Cela dépend de vos besoins, utilisez Hbase en cas de temps réel une analyse rapide des données de transmission en continu. Cassandra est la mieux adaptée pour les scénarios d'écriture rapide, car sa lecture est lente par rapport à HBASE.

Hive est également une bonne alternative. Pour améliorer les performances de la ruche, utilisez Impala.