J'essaie d'analyser un fichier XML (données OSM) avec expat, et il y a des lignes avec des caractères Unicode expat ne peut pas analyser:Python.expat ne peut pas analyser le fichier XML avec de mauvais symboles. Comment faire le tour?
<tag k="name"
v="абвгдежзиклмнопр�?туфхцчшщьыъ�?ю�?�?БВГДЕЖЗИКЛМ�?ОПРСТУФХЦЧШЩЬЫЪЭЮЯ" />
<tag k="name" v="Cin\x8e? Rex" />
(fichier XML de codage dans la ligne d'ouverture est " UTF-8 ")
Le fichier est assez ancien et il doit y avoir eu des erreurs. Dans les fichiers modernes, je ne vois pas d'erreurs UTF-8, et ils sont bien analysés. Mais que faire si mon programme rencontre un symbole brisé, quelle solution de contournement puis-je faire? Est-il possible de joindre le codec bz2 (j'analyse un fichier compressé) et le codec utf-8 pour ignorer les caractères brisés, ou les changer en "?"?
Qu'est-ce que le codage XML de la première ligne? –
Semble comme un jeu de caractères problème – Andy