Encore en train d'apprendre lxml. J'ai découvert que parfois je ne peux pas accéder au texte d'un élément d'un arbre en utilisant item.text. Si j'utilise item.text_content(), je suis prêt à partir. Je ne suis pas sûr de savoir pourquoi. Tous les conseils seraient appréciésLors de l'analyse html, pourquoi ai-je besoin de item.text parfois et item.text_content() autres
D'accord, je ne sais pas exactement comment fournir un exemple sans vous faire gérer un fichier:
est un code ici je l'ai écrit pour essayer de comprendre pourquoi je ne reçois pas un texte que je prévu:
theTree=html.fromstring(open(notmatched[0]).read())
text=[]
text_content=[]
notText=[]
hasText=[]
for each in theTree.iter():
if each.text:
text.append(each.text)
hasText.append(each) # list of elements that has text each.text is true
text_content.append(each.text_content()) #the text for all elements
if each not in hasText:
notText.append(each)
donc, après avoir couru ce que je regarde
>>> len(notText)
3612
>>> notText[40]
<Element b at 26ab650>
>>> notText[40].text_content()
'(I.R.S. Employer'
>>> notText[40].text
Fournir quelques exemples vous aidera à répondre à votre question. –