Aimer MRToolkit - idéal pour s'éloigner de Java lors de l'écriture de travaux Hadoop. Il est devenu évident que la bibliothèque a été écrite pour s'interfacer avec un cluster EC2, et non avec le système de mappage/réduction élastique d'Amazon. Quelqu'un a-t-il un aperçu des tâches en cours d'exécution définies à l'aide de la boîte à outils sur les serveurs map/reduce elastic? Ce n'est pas évident à partir de l'interface web, et j'aimerais éviter le casse-tête de la mise en place d'un cluster à la main sur EC2. J'ai regardé dans les fichiers de chargement sous l'option 'streaming' (comme MRToolkit l'utilise), mais Amazon attend des fichiers séparés pour le mapper et le réducteur - le style typique de MRToolkit les définit dans un seul fichier comme sous-classes des classes Base (Map | Reduce) prédéfinies.Exécution des tâches hadoop de MRToolkit sur AWS elastic map/reduce
Merci beaucoup pour vos commentaires.
Isaac
Ryan, Merci pour les pointeurs. J'ai remarqué que EMR vous permet de spécifier des buckets/répertoires d'entrée et de sortie sur S3 - savez-vous s'il existe un moyen de tirer parti de cette fonctionnalité avec MRToolkit au lieu de la copier manuellement (avec quelque chose comme s3cmd)? Encore une fois, merci beaucoup. Isaac – isparling
Il suffit d'utiliser la syntaxe suivante: s3n: // my-input-bucket/prod/logs ... Hadoop peut gérer le protocole s3 et extraire les données directement de s3. –