Il y a une grande différence. Il est souvent appelé "le problème des petits fichiers", et a à voir avec le fait qu'Hadoop s'attend à diviser les entrées géantes en tâches plus petites, mais pas à collecter de petites entrées dans des tâches plus importantes.
Jetez un oeil à ce billet de blog de Cloudera: http://www.cloudera.com/blog/2009/02/02/the-small-files-problem/
Si vous pouvez éviter de créer de nombreux fichiers, faire. Concaténer si possible. Les gros fichiers splittables sont BEAUCOUP mieux pour Hadoop.
J'ai déjà exécuté Pig sur l'ensemble de données netflix. Il a fallu des heures pour traiter quelques concerts. J'ai ensuite concaténé les fichiers d'entrée (je pense que c'était un fichier par film, ou un fichier par utilisateur) dans un seul fichier - a eu mon résultat en quelques minutes.