Existe-t-il un robot Web ouvert et simplement extensible?

Je recherche une solution de robot d'indexation qui est assez mature et peut être simplement étendue. Je suis intéressé par les caractéristiques suivantes ... ou possibilité d'étendre le robot d'exploration pour les rencontrer:Existe-t-il un robot Web ouvert et simplement extensible?

en partie juste pour lire les flux de plusieurs sites
à la ferraille le contenu de ces sites
si la site a une archive que je voudrais explorer et l'indexer ainsi
le robot devrait être capable d'explorer une partie du Web pour moi et il devrait être en mesure de décider quels sites correspond aux critères donnés
devrait être en mesure de informez-moi, si des choses qui correspondent à mes intérêts ont été trouvées
le robot ne doit pas tuer les serveurs en l'attaquant par trop de demandes, il devrait faire intelligent ramper
le robot d'exploration doit être robuste contre les sites scélérates et serveurs

Ces choses peuvent être faites au-dessus d'un par un sans grand effort, mais je suis intéressé par toute solution qui fournit un crawler personnalisable et extensible. J'ai entendu parler d'Apache Nutch, mais très incertain sur le projet jusqu'à présent. Avez-vous des expériences avec cela? Pouvez-vous recommander des alternatives?

Source

2010-01-18 fifigyuri

Une recherche rapide sur GitHub a lancé Anemone, une structure d'araignée qui semble répondre à vos besoins - en particulier l'extensibilité. Écrit en Ruby.
J'espère que ça se passe bien!

Source

2010-01-18 21:24:56

semble être une bonne substance, j'aime que c'est rubis, ce que j'aime, l'auteur a créé un bon DSL pour les robots. mais par rapport à nutch, je ne vois toujours pas de support RSS et des choses comme le pdf rampant. mais il est extensible.merci de partager la référence à l'anémone. – fifigyuri

Pas de soucis. Heureux de vous aider. –

Je recommande chaudement heritrix. Il est très flexible et je dirais que c'est le robot open source le plus testé et le plus testé, car c'est celui qu'Internet Archive utilise.

Source

2010-01-18 10:32:27

Vous devriez pouvoir trouver quelque chose qui correspond à vos besoins here.

Source

2010-01-18 11:03:04 Kane

sont ces choses que créé en java? – Toad

L'article s'intitule "Web Crawlers Open Source écrits en Java". Cependant, vous pouvez trouver des robots d'indexation intégrés dans d'autres langages qui peuvent vous fournir ce dont vous avez besoin. – Brian

J'ai beaucoup utilisé Nutch, lorsque je construisais l'index de projet open source pour mon démarrage de Krugle. Il est difficile de personnaliser, étant un design assez monolithique. Il existe une architecture de plug-in, mais l'interaction entre les plug-ins et le système est délicate et fragile. En conséquence de cette expérience, et ayant besoin de quelque chose avec plus de flexibilité, j'ai démarré le projet Bixo - une boîte à outils de web mining. http://openbixo.org.

Que ce soit pour vous dépend de la pondération des facteurs tels que:

Quelle flexibilité dont vous avez besoin (+)
Comment la maturité, il doit être (-)
Que vous ayez besoin capacité à l'échelle (+)
Si vous êtes à l'aise avec Java/Hadoop (+)

Source

2010-01-31 15:47:44 kkrugler

Existe-t-il un robot Web ouvert et simplement extensible?

Répondre

Questions connexes