J'ai un projet où je collectionne tous les articles de Wikipédia appartenant à une catégorie particulière, je sors la dump de Wikipedia, et je la mets dans notre db.Y a-t-il un analyseur/moyen disponible pour analyser les fichiers de vidage Wikipedia en utilisant Python?
Donc, je devrais être en train d'analyser le fichier de vidage Wikipedia pour faire les choses. Avons-nous un analyseur efficace pour faire ce travail? Je suis un développeur python. Donc je préfère n'importe quel analyseur en python. Si vous n'en suggérez pas un, je vais essayer d'en écrire un port en python et de le mettre en ligne, afin que d'autres personnes s'en servent ou au moins l'essayent. Donc tout ce que je veux, c'est un analyseur python pour analyser les fichiers de vidage de Wikipédia. J'ai commencé à écrire un analyseur manuel qui analyse chaque nœud et fait le travail.