2010-01-18 9 views
1

Je cherche à construire une infrastructure d'entreposage et d'interrogation de données, en plus des solutions Map/Reduce comme Hadoop. Cependant, il me semble que tout le travail de M/R ne fait que répéter ce que les gars du SGBDR ont résolu au cours des 20 dernières années avec les bases de données SQL parallèles. Les mises en œuvre de Parallels SQL mettent à l'échelle les lectures et les écritures entre les nœuds, tout comme M/R, mais contiennent en plus déjà les subtilités des bases de données normales (SQL, bibliothèques d'intégration existantes, etc.).Netezza, Teradata, DB2 Parallèle/Entreprise, ... par rapport à Hadoop ou autres?

Le problème est: vous ne semblez pas trouver les clients de ces sociétés postant beaucoup en ligne. Donc, quelqu'un ici a-t-il de l'expérience avec ce genre de solutions, et peut-il me donner un aperçu et/ou des liens?

Répondre

4

J'ai utilisé Netezza et Hadoop. Et avoir une connaissance de seconde main d'Infobright, une base de données de colonnes.

Netezza est une véritable base de données et implémente les propriétés ACID, ce qui a un coût et un avantage. Netezza est en train de faire en sorte que plus de code M/R s'exécute sur ses données de table avec la nouvelle architecture de twinfin. Dans la version précédente de l'appliance, ils prenaient en charge des fonctions et des agrégations définies par l'utilisateur. Dans la nouvelle version, qui exécute linux sur les SPU et utilise des processeurs Intel, la porte s'ouvre pour faire plus de code personnalisé à proximité des données. Mon expérience avec Netezza a été très positive - à la fois la technologie et l'entreprise.

Hadoop est un logiciel de réduction de la carte pure. Cela n'entraîne pas le coût des propriétés de la base de données ACID. Donc, c'est vraiment une bête différente de Netezza. Selon le modèle d'utilisation, il peut être meilleur et certainement moins cher que Netezza. Hadoop prenait en charge Hbase et Hive, ce qui peut vous offrir la commodité de requête dont vous avez besoin à moindre coût.

Un autre développeur de notre équipe a évalué Infobright, donc cela est de seconde main, et a trouvé que la performance de la charge était mauvaise et que certaines des agrégations étaient lentes. Il a quelques parallèles avec Netezza (par exemple, les cartes de zone sont utilisées dans netezza pour aider à réduire la portée de l'analyse). Infobright est open source avec une communauté et une édition d'entreprise prise en charge.

Il y a beaucoup plus à dire dans le contexte de votre problème particulier - probablement au-delà de la portée de ce forum. J'espère que cela t'aides.

+0

Merci! Je pense que je dois maintenant commencer une question chacun sur "Tous les utilisateurs de Terradata soins à commenter? Les utilisateurs de Vertica se soucient de commenter? Les utilisateurs de DB/2 Parallèle à faire des commentaires? ..." :-) –

+0

NZ a un assez bonne communauté à http://www.enzeecommunity.com –

1

Vous n'avez pas spécifié les questions auxquelles vous tentez de répondre avec vos requêtes ou la manière dont vos données sont structurées. Avant de choisir la solution à utiliser, vous devez probablement penser à ces deux choses.

Vous avez raison: les principaux fournisseurs de SGBDR proposent des solutions de clustering; à la fois pour le traitement parallèle et la haute disponibilité. Ils ont eu cette technologie pendant un certain temps et toute entreprise avec beaucoup de données l'utilise probablement. Lorsque vous achetez ($$$) le produit, il vous donnera beaucoup de documentation et vous aidera à le configurer (plus $$$) si vous pouvez vous le permettre.

Les SGBDR sont adaptés aux transactions en ligne (OLTP); répondre à des questions sur des rangées spécifiques (où vit Mary?); répondre à quelques questions de type sommaire (combien avons-nous vendu au premier trimestre, etc.) Bien qu'ils puissent être faits pour effectuer des questions sommaires détaillées (combien avons-nous vendre au premier trimestre, ventilé par produit, vendeur, mois, et région?), vous commencez généralement à imposer leurs limites (toute requête qui doit visiter toutes les lignes sera lente).

Pour ces types de requêtes, la plupart des entreprises disposent d'un entrepôt de données qui structure les données en «cubes» multidimensionnels. (Voir Cognos, Hyperion, autres). Cela peut convenir à ce que vous essayez de faire.

Je n'ai aucune expérience avec MapReduce mais j'ai lu la section wikipedia sur Uses et donc si ce que vous essayez de faire tombe dans ces catégories je continuerais avec elle.

+0

Merci. Nos requêtes exécutent la gamme. Une requête a récemment couru sur une instance MySQL assez costaude et a fini par prendre 13 000 secondes pour terminer ... Je suppose que ma question était plus sur l'expérience réelle avec des fournisseurs spécifiques - avez-vous eu une bonne ou mauvaise expérience, et de bonnes ou de mauvaises performances , de l'un des fournisseurs en particulier? Je m'intéresse particulièrement aux solutions d'entreposage de données basées sur des colonnes, comme Vertica, par rapport à SGBDR parallèle, par rapport à Hadoop. –

+0

Netezza, Teradata et même Exadata d'Oracle ont été conçus dès le départ pour OLAP. Avec un bon schéma en étoile et des tables agrégées appropriées, ces systèmes peuvent traiter la plupart des questions OLAP. –

0

Si vous travaillez dans une organisation en pleine croissance, vous devriez utiliser Teradata. Nous avons vraiment une bonne expérience avec Teradata. Il vous donne l'évolutivité qui ne peut pas être donnée par un autre fournisseur. Une fois que vous vous habituerez à son style SQL et de travail, vous apprécierez vraiment le design et l'architecture de Teradata.