2010-08-02 13 views
5

Je cherche à faire de l'analyse de texte dans un programme que j'écris. Je suis à la recherche d'autres sources de texte dans sa forme brute similaire à ce qui est fourni dans les dumps Wikipedia (download.wikimedia.com).Où puis-je trouver un vidage de texte brut sur le Web?

Je préfère ne pas avoir à passer par la peine de sites ramper, en essayant d'analyser le html, l'extraction de texte etc ..

Répondre

7

Quel genre de texte que vous cherchez?

Il existe de nombreux livres électroniques gratuits (de fiction et de non-fiction) au format .txt disponibles au Project Gutenberg. Ils ont également large DVD images plein de livres disponibles pour le téléchargement.

+0

+1 Je suis venu ici pour poster PG. – Joe

0

le gutenberg project a d'énormes quantités de livres électroniques dans différents formats (y compris le texte brut)

3

NLTK fournit une API simple Python pour accéder many text corpora, y compris Gutenberg, Reuters, Shakespeare, et d'autres.

>>> from nltk.corpus import brown 
>>> brown.words() 
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]