2010-04-21 16 views
18

Je cherche à télécharger le texte complet de Wikipedia pour mon projet d'université. Dois-je écrire ma propre araignée pour la télécharger ou y a-t-il un jeu de données public de Wikipedia disponible en ligne? Pour vous donner un aperçu de mon projet, je veux trouver les mots intéressants de quelques articles qui m'intéressent. Mais pour trouver ces mots intéressants, je prévois d'appliquer tf/idf pour calculer la fréquence du terme pour chaque mot et choisissez ceux avec une fréquence élevée. Mais pour calculer le tf, j'ai besoin de connaître le nombre total d'occurrences dans Wikipedia.Wikipedia texte de téléchargement

Comment cela peut-il être fait?

+0

Bien que j'ai répondu à votre question et que le simple fait remarquer que google a vos réponses est désapprouvé, si vous avez googlé 'télécharger le texte complet de Wikipedia' le lien est le premier succès. Je dis cela dans l'espoir que cela aidera à améliorer votre google-fu. –

+0

@Sam Holder Je veux juste confirmer. Est-ce le lien correct pour télécharger toutes les pages -http: //dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 – Boolean

+0

ouais cela semble être toutes les pages actuelles, et est probablement ce que vous voulez, mais sans savoir exactement ce qu'il est difficile de dire à coup sûr –

Répondre

20

de wikipedia: http://en.wikipedia.org/wiki/Wikipedia_database

Wikipédia propose des exemplaires gratuits de tout le contenu disponible aux utilisateurs intéressés. Ces bases de données peuvent être utilisées pour la mise en miroir, l'utilisation personnelle, les sauvegardes informelles, l'utilisation hors ligne ou les requêtes de base de données (comme pour Wikipedia: Maintenance). Tout le contenu du texte est sous licence multiple sous licence Creative Commons Attribution-ShareAlike 3.0 (CC-BY-SA) et GNU Free Documentation License (GFDL). Les images et autres fichiers sont disponibles sous différents termes, comme détaillé sur leurs pages de description. Pour obtenir des conseils sur le respect de ces licences, consultez Wikipedia: Copyrights.

Semble que vous avez de la chance aussi. Dans la section de décharge:

En date du 12 Mars 2010, la dernière sauvegarde complète de la Wikipédia en langue anglaise se trouve à http://download.wikimedia.org/enwiki/20100130/ Ceci est la première décharge complète de la Wikipédia en langue anglaise pour avoir été créé depuis 2008. Notez que les vidages plus récents (tels que la vidage 20100312) sont incomplets.

Ainsi, les données est seulement 9 jours :)

+4

J'ai augmenté votre réponse sur les autres simplement parce que vous avez fait plus que juste poster un lien. – UnkwnTech

+0

J'ai coupé et collé aussi :) –

+0

Je veux juste confirmer. Est-ce le lien correct pour télécharger toutes les pages -http: //dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 – Boolean

3

Compte tenu de la taille de la décharge, vous seriez probablement mieux servis en utilisant la fréquence de mot dans la langue anglaise, ou d'utiliser le MediaWiki API pour interroger les pages au hasard (ou les pages les plus consultées). Il existe des frameworks pour construire des bots basés sur cette API (en Ruby, C#, ...) qui peuvent vous aider.

9

Si vous avez besoin d'un version texte, pas un XML Mediawiki, vous pouvez le télécharger ici: http://kopiwiki.dsd.sztaki.hu/

+0

Super! Très bon travail. S'il vous plaît ajouter plus de langues :-) –

+3

Lien est cassé. – tmnol

+0

Nouveau lien ici: https: //dsd.sztaki.hu/produits/kopiwiki. – thuzhf