Je cherche à télécharger le texte complet de Wikipedia pour mon projet d'université. Dois-je écrire ma propre araignée pour la télécharger ou y a-t-il un jeu de données public de Wikipedia disponible en ligne? Pour vous donner un aperçu de mon projet, je veux trouver les mots intéressants de quelques articles qui m'intéressent. Mais pour trouver ces mots intéressants, je prévois d'appliquer tf/idf pour calculer la fréquence du terme pour chaque mot et choisissez ceux avec une fréquence élevée. Mais pour calculer le tf, j'ai besoin de connaître le nombre total d'occurrences dans Wikipedia.Wikipedia texte de téléchargement
Comment cela peut-il être fait?
Bien que j'ai répondu à votre question et que le simple fait remarquer que google a vos réponses est désapprouvé, si vous avez googlé 'télécharger le texte complet de Wikipedia' le lien est le premier succès. Je dis cela dans l'espoir que cela aidera à améliorer votre google-fu. –
@Sam Holder Je veux juste confirmer. Est-ce le lien correct pour télécharger toutes les pages -http: //dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 – Boolean
ouais cela semble être toutes les pages actuelles, et est probablement ce que vous voulez, mais sans savoir exactement ce qu'il est difficile de dire à coup sûr –