Fichiers d'entrée Hadoop

Existe-t-il une différence entre avoir des fichiers n avec 1 ligne chacun dans le dossier d'entrée et avoir 1 fichier avec n lignes dans le dossier d'entrée lors de l'exécution de hadoop?Fichiers d'entrée Hadoop

S'il y a n fichiers, le "InputFormat" le voit-il tous comme un fichier continu?

Source

2009-08-03 Verhogen

Il y a une grande différence. Il est souvent appelé "le problème des petits fichiers", et a à voir avec le fait qu'Hadoop s'attend à diviser les entrées géantes en tâches plus petites, mais pas à collecter de petites entrées dans des tâches plus importantes.

Jetez un oeil à ce billet de blog de Cloudera: http://www.cloudera.com/blog/2009/02/02/the-small-files-problem/

Si vous pouvez éviter de créer de nombreux fichiers, faire. Concaténer si possible. Les gros fichiers splittables sont BEAUCOUP mieux pour Hadoop.

J'ai déjà exécuté Pig sur l'ensemble de données netflix. Il a fallu des heures pour traiter quelques concerts. J'ai ensuite concaténé les fichiers d'entrée (je pense que c'était un fichier par film, ou un fichier par utilisateur) dans un seul fichier - a eu mon résultat en quelques minutes.

Source

2009-08-07 01:29:06 SquareCog

Répondre

Questions connexes