Si vous avez besoin de texte brut, vous devez utiliser la bibliothèque WikiClean https://github.com/lintool/wikiclean.
J'ai eu le même problème et il semble que c'était la seule solution efficace qui a fonctionné pour moi dans Java.
Il y a deux usecases:
1) Lorsque vous avez le texte pas au format XML, vous devez ajouter des balises xml nécessaires pour faire ce traitement. Supposons que vous traitiez un fichier XML plus tôt, et que vous ayez maintenant le contenu sans structure XML, alors vous ajoutez simplement xmlStartTag et xmlEndTag comme dans le code ci-dessous, et il le traite.
String xmlStartTag = "<text xml:space=\"preserve\">";
String xmlEndTag = "</text>";
String articleWithXml = xmlStartTag + article.getText() + xmlEndTag;
WikiClean cleaner = new WikiClean.Builder().build();
String plainWikiText = cleaner.clean(articleWithXml);
2) Lorsque vous lisez le fichier de vidage directement Wikipedia (fichier xml), dans ce cas, vous venez de passer à travers le fichier et passe par.
WikiClean cleaner = new WikiClean.Builder().build();
String plainWikiText = cleaner.clean(XMLFileContents);
Nuage vous publiez un échantillon d'une page montrant les annotations que vous souhaitez supprimer? – bakkal