Je suis habitué à créer des robots d'exploration de compiler des informations et que je viens à un site Web que j'ai besoin l'info je commence un nouveau robot spécifique pour ce site, en utilisant des scripts shell la plupart du temps et parfois PHP .Comment développer les meilleures robots d'exploration Web
La façon dont je fais est avec un simple for
à itérer pour la liste de la page, un wget
ne téléchargez et sed
, tr
, awk
ou d'autres utilitaires pour nettoyer la page et saisir les informations spécifiques dont j'ai besoin.
Tout le processus prend un certain temps en fonction du site et plus de télécharger toutes les pages. Et j'étapes souvent dans un site AJAX qui complique tout
Je me demandais s'il y a de meilleures façons de le faire, des moyens ou même certaines applications ou langues plus rapides pour aider ce travail.
Je pense que [XMLawk] (http://gawkextlib.sourceforge.net/) peut être une sélection. –