J'ai vu Nutch et Heritrix façon de ramper. Ils ont tous les deux le concept de cycles de génération/extraction/mise à jour qui commencent avec des URL de départ et parcourent les URL de résultat après l'étape de récupération.crawl dirigé en utilisant Nutch ou Heritrix
La logique de cadrage/filtrage fonctionne sur l'expression régulière appliquée aux URL extraites.
Je veux faire quelque chose de très spécifique. Je ne veux pas extraire toutes les URL de la page mais je préfère aller chercher des URL basées sur xpath. Les raisons étant: - Toutes les URL ne peuvent pas être classées avec une expression régulière précise - Je pourrais manquer certaines URL qui tombent en dehors de la reg - Je pourrais aussi suivre la séquence 'Page suivante' - Un cycle d'exploration spécifique peut avoir différents filtres basés sur xpath dans chaque profondeur.
Quelqu'un at-il fait une telle chose avec Nutch de Heritrix?
Merci Nayn