2010-11-29 20 views
2

J'ai un projet de traitement du langage naturel, mais pour cela j'ai besoin d'explorer de nombreux articles web à partir de certaines sources comme Yahoo nouvelles, Google nouvelles ou blogs ...Que devrais-je utiliser pour explorer de nombreux articles de presse?

Je suis un développeur Java (donc je voudrais utilisez plutôt des outils Java). Je suppose que je peux analyser chaque site Web de source moi-même et extraire les articles avec HttpClient/XPath mais je suis un peu paresseux :) est-il un moyen de ne pas avoir à faire un analyseur par source?

(je ne suis pas intéressé par de nouveaux seulement des articles mais des articles de 2000 à présent aussi)

Répondre

4

La partie la plus difficile de la PNL est d'obtenir les données que vous pouvez utiliser. Tout le reste n'est que mathématique.

Il peut être difficile de trouver une grande collection d'articles de presse autres que sur le site Web de chaque source de nouvelles en raison de tous les problèmes de droit d'auteur en cause. Si vous n'avez pas besoin de nouvelles récentes, votre meilleur pari est probablement de regarder le English Gigaword corpus du Consortium de données linguistiques; Si vous êtes dans une université, il existe peut-être déjà une relation pour que vous puissiez utiliser les données gratuitement.

Si vous avez besoin d'explorer et d'analyser des sites Web, pour l'instant, vous devrez probablement écrire des analyseurs spécifiques pour les différents sites d'actualités afin de vous assurer d'obtenir le bon texte. Cependant, une fois de plus les sites Web commencent à utiliser HTML5, il sera plus facile de sortir le texte pertinent en utilisant le article tag.

Pour effectuer une exploration réelle, this previous question peut vous indiquer quelques directions utiles.