Nutch - Lucene - capturer le contenu des pages

J'ai parcouru quelques pages avec Java Nutch J'ai aussi fait un module avec Lucene en Java qui permet d'exécuter des requêtes sur des documents indexés. Je sais que j'ai créé des champs Nutch comme url, weight et le titre. Mais je suis intéressé à capturer le contenu de chaque page. Comment je peux le faire en utilisant Lucene et sachant que j'ai rampé avec nutch?Nutch - Lucene - capturer le contenu des pages

Merci

Source

2010-12-04 esteban

Vous devez donner plus de détails sur ce que vous voulez réaliser ... car Nutch comprend déjà un indice Lucene donc je me demande pourquoi vous voulez un autre ???? Nutch a un front-end jsp où vous pouvez regarder et trouver comment interroger un contenu de champ. Un système de cache est implémenté pour que vous puissiez récupérer les données mises en cache de la page, mais vous devez ensuite l'analyser à nouveau et l'indexer à nouveau.

Source

2010-12-05 19:59:06 millebii

J'ai parcouru les nouvelles des sites diferents, en utilisant java Nutch J'ai besoin de récupérer le contenu html de ces pages parce que je dois créer des documents. Ces documents doivent enregistrer le contenu de chaque nouveau. Ces documents seront utilisés pour classifier ces nouvelles en utilisant le java api MAPLES. Je vais utiliser Lucene pour gérer ces documents. Merci. – esteban

Nutch n'est pas une base de données de documents, il est vraiment orienté vers la recherche, l'exploration est une partie de celui-ci. Au moment de la recherche, vous pouvez récupérer le code HTML du document tel que je l'ai expliqué (regardez cached.jsp pour savoir comment vous pouvez le faire). Cependant, vous voudrez peut-être gérer votre document dans Nutch plutôt qu'à l'extérieur ... ou trouver un autre robot. – millebii

Nutch - Lucene - capturer le contenu des pages

Répondre

Questions connexes