J'ai parcouru quelques pages avec Java Nutch J'ai aussi fait un module avec Lucene en Java qui permet d'exécuter des requêtes sur des documents indexés. Je sais que j'ai créé des champs Nutch comme url, weight et le titre. Mais je suis intéressé à capturer le contenu de chaque page. Comment je peux le faire en utilisant Lucene et sachant que j'ai rampé avec nutch?Nutch - Lucene - capturer le contenu des pages
Merci
J'ai parcouru les nouvelles des sites diferents, en utilisant java Nutch J'ai besoin de récupérer le contenu html de ces pages parce que je dois créer des documents. Ces documents doivent enregistrer le contenu de chaque nouveau. Ces documents seront utilisés pour classifier ces nouvelles en utilisant le java api MAPLES. Je vais utiliser Lucene pour gérer ces documents. Merci. – esteban
Nutch n'est pas une base de données de documents, il est vraiment orienté vers la recherche, l'exploration est une partie de celui-ci. Au moment de la recherche, vous pouvez récupérer le code HTML du document tel que je l'ai expliqué (regardez cached.jsp pour savoir comment vous pouvez le faire). Cependant, vous voudrez peut-être gérer votre document dans Nutch plutôt qu'à l'extérieur ... ou trouver un autre robot. – millebii