2010-01-18 15 views
7

Je recherche une solution de robot d'indexation qui est assez mature et peut être simplement étendue. Je suis intéressé par les caractéristiques suivantes ... ou possibilité d'étendre le robot d'exploration pour les rencontrer:Existe-t-il un robot Web ouvert et simplement extensible?

  • en partie juste pour lire les flux de plusieurs sites
  • à la ferraille le contenu de ces sites
  • si la site a une archive que je voudrais explorer et l'indexer ainsi
  • le robot devrait être capable d'explorer une partie du Web pour moi et il devrait être en mesure de décider quels sites correspond aux critères donnés
  • devrait être en mesure de informez-moi, si des choses qui correspondent à mes intérêts ont été trouvées
  • le robot ne doit pas tuer les serveurs en l'attaquant par trop de demandes, il devrait faire intelligent ramper
  • le robot d'exploration doit être robuste contre les sites scélérates et serveurs

Ces choses peuvent être faites au-dessus d'un par un sans grand effort, mais je suis intéressé par toute solution qui fournit un crawler personnalisable et extensible. J'ai entendu parler d'Apache Nutch, mais très incertain sur le projet jusqu'à présent. Avez-vous des expériences avec cela? Pouvez-vous recommander des alternatives?

Répondre

2

Une recherche rapide sur GitHub a lancé Anemone, une structure d'araignée qui semble répondre à vos besoins - en particulier l'extensibilité. Écrit en Ruby.
J'espère que ça se passe bien!

+0

semble être une bonne substance, j'aime que c'est rubis, ce que j'aime, l'auteur a créé un bon DSL pour les robots. mais par rapport à nutch, je ne vois toujours pas de support RSS et des choses comme le pdf rampant. mais il est extensible.merci de partager la référence à l'anémone. – fifigyuri

+0

Pas de soucis. Heureux de vous aider. –

2

Je recommande chaudement heritrix. Il est très flexible et je dirais que c'est le robot open source le plus testé et le plus testé, car c'est celui qu'Internet Archive utilise.

2

Vous devriez pouvoir trouver quelque chose qui correspond à vos besoins here.

+0

sont ces choses que créé en java? – Toad

+0

L'article s'intitule "Web Crawlers Open Source écrits en Java". Cependant, vous pouvez trouver des robots d'indexation intégrés dans d'autres langages qui peuvent vous fournir ce dont vous avez besoin. – Brian

4

J'ai beaucoup utilisé Nutch, lorsque je construisais l'index de projet open source pour mon démarrage de Krugle. Il est difficile de personnaliser, étant un design assez monolithique. Il existe une architecture de plug-in, mais l'interaction entre les plug-ins et le système est délicate et fragile. En conséquence de cette expérience, et ayant besoin de quelque chose avec plus de flexibilité, j'ai démarré le projet Bixo - une boîte à outils de web mining. http://openbixo.org.

Que ce soit pour vous dépend de la pondération des facteurs tels que:

  1. Quelle flexibilité dont vous avez besoin (+)
  2. Comment la maturité, il doit être (-)
  3. Que vous ayez besoin capacité à l'échelle (+)
  4. Si vous êtes à l'aise avec Java/Hadoop (+)