Exécution des tâches hadoop de MRToolkit sur AWS elastic map/reduce

Aimer MRToolkit - idéal pour s'éloigner de Java lors de l'écriture de travaux Hadoop. Il est devenu évident que la bibliothèque a été écrite pour s'interfacer avec un cluster EC2, et non avec le système de mappage/réduction élastique d'Amazon. Quelqu'un a-t-il un aperçu des tâches en cours d'exécution définies à l'aide de la boîte à outils sur les serveurs map/reduce elastic? Ce n'est pas évident à partir de l'interface web, et j'aimerais éviter le casse-tête de la mise en place d'un cluster à la main sur EC2. J'ai regardé dans les fichiers de chargement sous l'option 'streaming' (comme MRToolkit l'utilise), mais Amazon attend des fichiers séparés pour le mapper et le réducteur - le style typique de MRToolkit les définit dans un seul fichier comme sous-classes des classes Base (Map | Reduce) prédéfinies.Exécution des tâches hadoop de MRToolkit sur AWS elastic map/reduce

Merci beaucoup pour vos commentaires.

Isaac

Source

2010-08-05 isparling

C'est faisable, mais pas à travers l'interface web.

Téléchargez et installez le Ruby Client
Créer votre cluster: élasto-MapReduce --create --alive [params au cluster de taille]
Confirmez votre carte élastique Réduire groupe de sécurité principale a ouvert le port 22
SSH dans votre nœud maître
Utilisez git/scp pour copier sur votre code d'application
Exécutez votre application

Source

2010-08-05 17:52:58

Ryan, Merci pour les pointeurs. J'ai remarqué que EMR vous permet de spécifier des buckets/répertoires d'entrée et de sortie sur S3 - savez-vous s'il existe un moyen de tirer parti de cette fonctionnalité avec MRToolkit au lieu de la copier manuellement (avec quelque chose comme s3cmd)? Encore une fois, merci beaucoup. Isaac – isparling

Il suffit d'utiliser la syntaxe suivante: s3n: // my-input-bucket/prod/logs ... Hadoop peut gérer le protocole s3 et extraire les données directement de s3. –

Exécution des tâches hadoop de MRToolkit sur AWS elastic map/reduce

Répondre

Questions connexes