J'écris un script simple pour aller chercher la grande table grise de here.Analyse HTML: erreur lxml en Python
Le code que j'ai est le suivant:
import urllib2
from lxml import etree
html = urllib2.urlopen("http://www.afi.com/100years/movies10.aspx").read()
root = etree.XML(html)
mais je reçois une erreur sur la dernière déclaration.
Traceback (most recent call last):
File "D:\Workspace\afi100\afi100.py", line 13, in <module>
root = etree.XML(html)
File "lxml.etree.pyx", line 2720, in lxml.etree.XML (src/lxml/lxml.etree.c:52577)
File "parser.pxi", line 1556, in lxml.etree._parseMemoryDocument (src/lxml/lxml.etree.c:79602)
File "parser.pxi", line 1435, in lxml.etree._parseDoc (src/lxml/lxml.etree.c:78449)
File "parser.pxi", line 943, in lxml.etree._BaseParser._parseDoc (src/lxml/lxml.etree.c:75099)
File "parser.pxi", line 547, in lxml.etree._ParserContext._handleParseResultDoc (src/lxml/lxml.etree.c:71467)
File "parser.pxi", line 628, in lxml.etree._handleParseResult (src/lxml/lxml.etree.c:72340)
File "parser.pxi", line 568, in lxml.etree._raiseParseError (src/lxml/lxml.etree.c:71683)
XMLSyntaxError: Space required after the Public Identifier, line 3, column 59
Une idée comment puis-je contourner cette erreur?
Merci.
Vous pensez que c'est une bonne idée d'analyser HTML en utilisant un analyseur XML? – khachik
Vous devriez n'importe quel outil HTML au XML (xhtml) disponible. – khachik
J'avais la fausse impression que HTML était un sous-ensemble de XML (ce n'est pas le cas, mais XHTML l'est). Il ya une bonne description des différences majeures à http://techforum4u.com/content.php/318-What-is-the-difference-between-HTML-and-XML – naught101