J'ai actuellement du code Ruby utilisé pour gratter certains sites Web. J'utilisais Ruby parce qu'à l'époque j'utilisais Ruby on Rails pour un site, et ça avait du sens.Quelle pure bibliothèque Python devrais-je utiliser pour gratter un site Web?
Maintenant, j'essaie de transférer ceci vers Google App Engine et de rester bloqué.
J'ai porté Python Mechanize pour fonctionner avec Google App Engine, mais il ne prend pas en charge l'inspection DOM avec XPATH.
J'ai essayé le ElementTree intégré, mais il s'est étouffé sur le premier blob HTML que je lui ai donné lorsqu'il est tombé sur '& mdash'. Est-ce que je continue à essayer de pirater ElementTree, ou est-ce que j'essaie d'utiliser autre chose?
merci, Mark
Dupliquer de tous ceux-ci: http://stackoverflow.com/search?q=%5Bpython%5D+html+parse –
Je pourrais avoir à aller avec scrapy, puis-je utiliser XPath avec une belle soupe? – MStodd
En fait, je pourrais devoir aller avec aucun depuis que je ne suis pas sûr que la belle soupe fonctionne avec xpath, et il semble que scrapy a une dépendance binaire. – MStodd