Comme le sujet lit, est-il important que j'obtienne du matériel dédié pour exécuter un cluster hadoop et non des machines virtuelles? Si oui, quelle est la latence réseau acceptable? Êtes-vous obligé d'avoir Gigabit ethernet? Je voudrais tirer parti de hadoop pour accélérer le processus ETL. En essayant de le faire, j'ai installé quelques VM (512-1GB RAM, 1core par VM d'un processeur dual core 2.2Mhz) distantes d'environ 500 miles, avec une latence réseau de 10-25ms sur un Ethernet de 100Mpbs. Je suis incapable de faire correspondre une seule performance de machine pour mon processus ETL, avec 3-4 VM comme nœuds. Donc, je pensais que je poserais cette question ici pour plus de perspicacité.La carte en cours d'exécution est réduite par rapport aux machines virtuelles géographiquement localisées - Quelle est l'importance de cette configuration pour un cluster hadoop?
Répondre
Cela dépend en grande partie de vos tâches, mais, en général, il est important du tout - y compris les latences du réseau, des bandes passantes, charge CPU/disponibilité,
Je peux imaginer quelques scénarios où serait pas très importante bande passante du réseau - pour Par exemple, si vous avez déjà chargé votre tableau de données sur un HDFS, c'est-à-dire qu'il est proprement réparti sur tous les nœuds, et vous allez faire un calcul complexe sur ce tableau dans les mappeurs, sans réducteurs ou avec très peu de ces données vont aux réducteurs. Par exemple, si vous comptez le nombre de lignes dans les fichiers texte, les mappeurs liront des fichiers de plusieurs gigaoctets et n'appliqueront qu'un nombre simple de réducteurs - nombre de lignes. Les réducteurs résument ces nombres et poussent une réponse unique dans la sortie. Il n'y a pratiquement rien transféré sur le réseau => aucun effet sur les performances.
Cependant, dans la vraie vie, vous rencontrez de telles tâches plutôt rarement. Habituellement, il y a un certain groupe - en passant entre les mappeurs et les réducteurs et donc la majeure partie du calcul par groupe est effectuée par des réducteurs - c'est-à-dire que les réducteurs doivent transférer toutes les données des mappeurs, utilisant généralement le réseau lourdement.
Si vous voulez en savoir plus sur vos tâches, je peux donner des estimations plus détaillées du matériel que vous souhaitez utiliser et quels sont les points faibles de la solution actuelle.
Le matériel dédié est toujours important.
Vos machines virtuelles n'ont certainement pas assez de RAM, la latence du réseau sera importante, mais 100Mbps est probablement suffisant avec 3-4 nœuds.
merci pour votre réponse. J'ai migré vers un cluster de serveurs HP Blade à 6 nœuds et j'ai constaté une augmentation de 400% des performances du cluster de machines virtuelles. Comme le dit le livre 'Pro Hadoop' - je suppose que vous aurez toujours besoin de machines montées en rack, de classe serveur pour de meilleurs résultats. – Jay