parsing XML Python libxml2 ayant des caractères chinois

i ont rencontré des problèmes de codage lors de l'utilisation libxml2 en python pour analyser charactors chinoisparsing XML Python libxml2 ayant des caractères chinois

# coding=utf8 
import libxml2 

def output(data): 
    doc = libxml2.parseMemory(data, len(data)) 
    ctxt = doc.xpathNewContext() 
    res_rslt = ctxt.xpathEval("/r/e/attribute::Name") 
    print res_rslt[0] 

data = '''<r><e RoleID="3247" Name="中文"></e></r>''' 

output(data)

l'out mis est

Name="&#x4E2D;&#x6587;"

alors que je me attends

Name="中文"

comment pourrais-je le faire?

Source

2010-11-19 neilxp

Ma réponse à ce genre de choses semble toujours être "utiliser Beautiful Soup". Et je reçois toujours des votes pour ça aussi (ce qui montre, je pense, que d'autres sont d'accord avec moi que c'est bon). Le fait est que libxml2 convertit ces caractères en les entités XML correctes qui sont correctes pour XML. Beautiful Soup n'a pas de telles notions de ressentir un besoin d'être correct - donc cela vous donne juste ce que vous voulez.

(Notez dans ce cas que l'utilisation soit u'...' ou '...' fonctionnera;. Je l'ai mis en unicode parce qu'il se sent mieux de cette façon - quoi que vous fassiez, Beautiful Soup gives you Unicode)

Source

2010-11-19 12:47:23

Avec lxml, les choses sont plus faciles et ils travaillent. C'est une liaison Pythonic pour la bibliothèque libxml2 et fonctionne à merveille.

>>> from lxml import etree 
>>> x = etree.fromstring('''<r><e RoleID="3247" Name="中文"></e></r>''') 
>>> name = x[0].get('Name') 
>>> print name 
中文

Et oui, XPath est également pris en charge. La documentation est here.

En ce qui concerne votre programme, consultez ceci:

# -*- coding: utf-8 -*- 

import libxml2 

def output(data): 
    doc = libxml2.parseDoc(data) 
    ctxt = doc.xpathNewContext() 
    res_rslt = ctxt.xpathEval("/r/e/attribute::Name") 
    return res_rslt[0] 

data = u'''<?xml version="1.0" encoding="UTF-8"?><r><e RoleID="3247" Name="中文"></e></r>'''.encode("UTF-8") 

print output(data)

Source

2010-11-19 13:01:09 user225312

'de etree' d'importation lxml –

Oh oui, fixe. – user225312

parsing XML Python libxml2 ayant des caractères chinois

Répondre

Questions connexes