saxparser ignore byte point de commande

Notre saxparser n'ignore pas la marque de l'ordre des octets ï»¿ qui apparaît au début du fichier.saxparser ignore byte point de commande

Comment puis-je faire en sorte que mon analyseur saxe ignore la marque de commande d'octets?

Source

2010-04-16 Anand Sunderraman

il n'y a probablement pas moyen ... juste enregistrer sans nomenclature –

Il semble que vous donniez une entrée utf-16 à un saxparser qui ne s'attend pas à utf-16. Essayez de convertir les données en utf-8, cela pourrait aider.

Source

2010-04-16 11:33:54

Vérifiez le fichier dans un éditeur hexadécimal.

Si les octets initiaux sont en effet \xEF\xBB\xBF suivi du document lui-même, il s'agit alors d'une pseudo-nomenclature UTF-8. Bien que les faux-nomenclatures UTF-8 soient une faute fautive et que les outils qui les génèrent doivent être détruits avec une programmation spéciale, la spécification XML fait require analyseurs pour reconnaître et ignorer cette séquence d'octets, donc si votre analyseur syntaxique SAX n'est pas conforme et a besoin de coups de pied.

Si les premiers octets qui sont en vous donnant ï»¿ sont en fait quelque chose comme l'un des:

\xC3\xAF\xC2\xBB\xC2\xBF 
\xEF\xBB\xBF\xC3\xAF\xC2\xBB\xC2\xBF 
\xEF\x00\xBB\x00\xBF\x00 
\xFF\xFE\xEF\x00\xBB\x00\xBF\x00

alors ce que vous avez est un double encodage accidentel. Dans ce cas, vous devez regarder le programme produisant le fichier parce qu'il n'est pas bien formé, un analyseur SAX serait correct de se plaindre, et d'autres caractères Unicode dans le fichier seraient probablement foiré aussi. Peut-être que c'est faire quelque chose de stupide comme sérialiser le document à une chaîne d'octets, puis l'envoyer à travers un cycle de décodage/encodage bidon. De toute façon, si vous avez besoin que l'analyseur ignore la séquence d'octets gênante, vous devrez l'alimenter avec une version que vous auriez manuellement piratée pour supprimer ce préfixe. Sans savoir ce que vous êtes analyseur SAX (ou même quelle langue), il est difficile de dire comment faire cela. Peut-être que vous pouvez rechercher le flux d'entrée avant de le transmettre à l'analyseur? Peut-être que vous pouvez lire le fichier dans une chaîne d'octets et passer ce, tondu des octets initiaux, à l'analyseur? Si votre analyseur ne vous donne pas ces options, vous devez charger le fichier en octets, découper le début et l'enregistrer à nouveau dans un nouveau fichier.

Source

2010-04-16 11:51:21 bobince

Répondre

Questions connexes