Je recherche une solution de robot d'indexation qui est assez mature et peut être simplement étendue. Je suis intéressé par les caractéristiques suivantes ... ou possibilité d'étendre le robot d'exploration pour les rencontrer:Existe-t-il un robot Web ouvert et simplement extensible?
- en partie juste pour lire les flux de plusieurs sites
- à la ferraille le contenu de ces sites
- si la site a une archive que je voudrais explorer et l'indexer ainsi
- le robot devrait être capable d'explorer une partie du Web pour moi et il devrait être en mesure de décider quels sites correspond aux critères donnés
- devrait être en mesure de informez-moi, si des choses qui correspondent à mes intérêts ont été trouvées
- le robot ne doit pas tuer les serveurs en l'attaquant par trop de demandes, il devrait faire intelligent ramper
- le robot d'exploration doit être robuste contre les sites scélérates et serveurs
Ces choses peuvent être faites au-dessus d'un par un sans grand effort, mais je suis intéressé par toute solution qui fournit un crawler personnalisable et extensible. J'ai entendu parler d'Apache Nutch, mais très incertain sur le projet jusqu'à présent. Avez-vous des expériences avec cela? Pouvez-vous recommander des alternatives?
semble être une bonne substance, j'aime que c'est rubis, ce que j'aime, l'auteur a créé un bon DSL pour les robots. mais par rapport à nutch, je ne vois toujours pas de support RSS et des choses comme le pdf rampant. mais il est extensible.merci de partager la référence à l'anémone. – fifigyuri
Pas de soucis. Heureux de vous aider. –