Dans Hadoop, vous pouvez utiliser le mécanisme de tri secondaire pour trier les valeurs avant qu'elles ne soient envoyées au réducteur. La façon dont cela est fait dans Hadoop est que vous ajoutez la valeur à trier par à la clé, puis que vous avez des méthodes de comparaison de groupes et de clés personnalisées qui se connectent au système de tri. Par conséquent, vous aurez besoin d'une clé composée essentiellement de la clé réelle et de la valeur à trier. Pour que cela fonctionne assez vite, j'ai besoin d'un moyen de créer une clé composite qui soit aussi facile à décomposer dans les parties séparées nécessaires pour les méthodes de comparaison de groupe et de clé.Quelle classe de clé convient au tri secondaire?
Quelle est la manière la plus intelligente de le faire. Existe-t-il une classe Hadoop "prête à l'emploi" qui peut m'aider dans cette tâche ou dois-je créer une classe de clé séparée pour chaque étape de réduction de la carte?
Comment faire cela si la clé est en fait un composite composé de plusieurs parties (également nécessaire en raison du partitionneur)?
Que recommandez-vous?
P.S. Je voulais ajouter le tag "secondary-sort" mais je n'ai pas encore assez de rep pour le faire.
là vous allez (j'ai ajouté l'étiquette) :-) –
Merci d'ajouter l'étiquette :) –
N'a pas tout à fait obtenir votre question, pourriez-vous ajouter un court exemple? – Sudarshan