Je collectionne les logs avec Flume sur le HDFS. Pour le cas de test, j'ai de petits fichiers (~ 300kB) parce que le processus de collecte de journaux a été mis à l'échelle pour l'utilisation réelle.Quelle est la manière la plus simple de combiner de petits blocs HDFS?
Existe-t-il un moyen facile de combiner ces petits fichiers en plus gros fichiers qui sont plus proches de la taille du bloc HDFS (64 Mo)?
Souhaitez-vous combiner des fichiers pour le stockage ou pour l'entrée de travaux mapreduce? – wlk
Existe-t-il un moyen de les combiner du point de vue d'un mappeur? –
Je voudrais les combiner pour le stockage –