2010-12-02 22 views
6

Je travaille sur un projet où j'ai besoin d'un crawler mature pour faire un peu de travail, et j'évalue Nutch dans ce but. Mes besoins actuels sont relativement simples: j'ai besoin d'un moteur de balayage capable de sauvegarder les données sur le disque et dont j'ai besoin pour ne pouvoir recréer que les ressources mises à jour d'un site et ignorer les parties déjà explorées. Est-ce que quelqu'un a déjà travaillé avec le code Nutch directement en Java, pas via la ligne de commande? Je voudrais commencer simple: créer un robot (ou similaire), le configurer au minimum et le démarrer, rien d'extraordinaire. Y a-t-il un exemple ou une ressource que je devrais regarder? Je passe en revue la documentation de Nutch, mais la plus grande partie concerne la ligne de commande, la recherche et d'autres choses. Comment le module d'exploration Nutch est-il utilisable sans devoir indexer et rechercher? Toute aide est appréciée. Merci.Nutch API advice

Répondre

1

Nutch est très différent de ce que vous avez probablement pratiqué. Parce qu'il est quelque chose comme un cadre, il a non seulement l'avant pour la recherche &, bien que solr semble plus puissant que le frontal de recherche Nutch natif. Il a aussi la partie rampante et l'indexation (dans un index de Lucene).

Si vous souhaitez utiliser l'exploration à d'autres fins que la recherche, vous devrez développer vos propres programmes et vous familiariser avec la programmation Hadoop et MapReduce.

Vous ne savez pas ce que vous voulez faire avec votre rampant, mais il ne ressemble pas Nutch est la solution