Je cherche à remplacer un tas de scripts Python ETL qui effectuent une synthèse de données toutes les heures/toutes les heures et une collecte de statistiques sur une quantité massive de données.Spring-Batch pour un traitement de données Hive/MySQL tous les soirs/toutes les heures
Ce que je voudrais réaliser est
- Robustesse - un emploi à défaut/étape doit être redémarré automatiquement. Dans certains cas, je voudrais exécuter une étape de récupération à la place.
- L'infrastructure doit être en mesure de récupérer des plantages. Je suppose qu'une certaine persistance serait nécessaire ici.
- Surveillance - Je dois être capable de surveiller la progression des travaux/étapes, et de préférence voir l'historique et les statistiques en ce qui concerne la performance. Traçabilité - Je dois être capable de comprendre l'état des exécutions
- Intervention manuelle - c'est bien d'avoir ... pouvoir démarrer/arrêter/mettre en pause un travail à partir d'une API/interface utilisateur/ligne de commande.
- Simplicité - Je préfère ne pas avoir l'air énervé de mes collègues lorsque je présente le remplacement ... Avoir une API simple et facile à comprendre est une exigence.
Les scripts actuels procédez comme suit:
- journaux texte de Collectionnez beaucoup de machines, et les poussent dans Hadoop DFS. Nous pouvons utiliser Flume pour cette étape dans le futur (voir http://www.cloudera.com/blog/2010/07/whats-new-in-cdh3b2-flume/).
- Exécutez les requêtes récapitulatives Hive sur les données et insérez (remplacez) les nouvelles tables/partitions Hive.
- Extrayez les nouvelles données de synthèse dans des fichiers et chargez (fusionnez) dans des tables MySql. Ce sont les données nécessaires plus tard pour les rapports en ligne.
- Effectuez des jointures supplémentaires sur les données MySql nouvellement ajoutées (à partir des tables MySql) et mettez à jour les données.
Mon idée est de remplacer les scripts par spring-batch. J'ai également examiné Scriptella, mais je crois que c'est trop «simple» pour ce cas.
depuis que j'ai vu quelques mauvaises vibrations sur Spring-Batch (surtout les anciens messages) j'espère avoir des entrées ici. Je n'ai pas non plus beaucoup vu l'intégration de Spring-batch et de Hive, ce qui est gênant.
Ces scripts sont nés dans le péché.Je sais, je leur ai écrit :) – Yossale
Donnez-vous la fessée pour votre héritage @yossale –
Tant que je ne suis pas celui qui doit le réparer .. :) – Yossale