2010-09-13 37 views
2

Je veux utiliser le vidage wikipedia pour mon projet. Les informations ci-dessous sont requises pour mon projet.Wikipedia: pages à travers plusieurs langues

  1. Pour une entrée wikipedia, je veux savoir quelle autre langue contient la page?
  2. Je veux une donnée téléchargeable en format csv ou autre format courant.

Existe-t-il un moyen d'obtenir ces données?

Merci Bala

Répondre

1

La fondation Wikimedia fournit des dépotoirs XML de tous ses projets, y compris la langue anglaise Wikipedia.

Parsing un article wiki en langue anglaise pour les liens inter-langue est assez facile: la syntaxe de ces liens sont [[language_code:Name of other language Wikipedia article]], où LANGUAGE_CODE est généralement un code à deux ou trois lettres (par exemple tlh pour Klingon), basé sur ISO standard sauf pour quelques exceptions, telles que simple pour l'anglais simple.

0

Je vais répondre à cette question même si elle est ancienne parce que les choses ont changé: maintenant il y a Wikidata.

Tous les INTERLINKS ont été éliminés des articles de Wikipedia, et maintenant Wikidata les accueille tous: vous pouvez vérifier un élément (par exemple, Q42 « Douglas Adams ») section et les « pages Wikipédia liés à ce point » sera vous fournir les liens annexes à tous les Wikipédias différents.

Ici vous pouvez trouver Wikidata API, ou vous pouvez utiliser la page Special:Export pour récupérer le (s) document (s) en XML.