J'ai un projet de traitement du langage naturel, mais pour cela j'ai besoin d'explorer de nombreux articles web à partir de certaines sources comme Yahoo nouvelles, Google nouvelles ou blogs ...Que devrais-je utiliser pour explorer de nombreux articles de presse?
Je suis un développeur Java (donc je voudrais utilisez plutôt des outils Java). Je suppose que je peux analyser chaque site Web de source moi-même et extraire les articles avec HttpClient/XPath mais je suis un peu paresseux :) est-il un moyen de ne pas avoir à faire un analyseur par source?
(je ne suis pas intéressé par de nouveaux seulement des articles mais des articles de 2000 à présent aussi)