2010-07-15 10 views
0

J'ai vu Nutch et Heritrix façon de ramper. Ils ont tous les deux le concept de cycles de génération/extraction/mise à jour qui commencent avec des URL de départ et parcourent les URL de résultat après l'étape de récupération.crawl dirigé en utilisant Nutch ou Heritrix

La logique de cadrage/filtrage fonctionne sur l'expression régulière appliquée aux URL extraites.

Je veux faire quelque chose de très spécifique. Je ne veux pas extraire toutes les URL de la page mais je préfère aller chercher des URL basées sur xpath. Les raisons étant: - Toutes les URL ne peuvent pas être classées avec une expression régulière précise - Je pourrais manquer certaines URL qui tombent en dehors de la reg - Je pourrais aussi suivre la séquence 'Page suivante' - Un cycle d'exploration spécifique peut avoir différents filtres basés sur xpath dans chaque profondeur.

Quelqu'un at-il fait une telle chose avec Nutch de Heritrix?

Merci Nayn

Répondre

0

J'ai essayé de créer un POC avec les deux. J'avais besoin des liens externes pour démarrer la prochaine phase de l'exploration avec diff ensemble de règles. Avec heritrix, il n'y a aucun moyen de conserver les liens sortants sur le dernier saut puisque tous les liens sortants sont supprimés. Avec Nutch, il n'y a aucun moyen d'incorporer mon propre grattoir qui ne renvoie pas les liens sortants etc. qui sont requis par ses structures de données internes comme ParseData etc. De plus, il est étroitement couplé avec Lucene et le système d'indexation associé. Remerciements Nayn