2010-11-27 15 views
2

Je doute dans nutch alors que je l'ai utilisé le wiki je me demande de modifier le crawl-urlfilter.txtcomment faire nutch crawler crawl

+^http://([a-z0-9]*\.)*apache.org/ 

et je me demande de créer un dossier url et une liste d'URL. ..

ai-je besoin de créer tous les liens dans crawl-urlfilter.txt et dans la liste des url ...

Répondre

0

Oui et non.

acte crawl-urlfiler.txt comme un filtre, de sorte que urls sur apache.org sera jamais rampé dans votre exemple

Le dossier URL donne les urls « des semences » où laisser le départ de robot. Donc, si vous voulez que le robot reste dans un ensemble de sites, vous devrez vous assurer qu'ils ont une correspondance positive avec le filtre ... sinon, il va explorer tout le web. Cela peut signifier que vous devez mettre la liste des sites dans le filtre