Quelqu'un peut-il m'aider à analyser un fichier html pour obtenir les liens pour toutes les images dans le fichier en python?Python - Obtenir toutes les images d'un fichier html
De préférence avec un module de 3ème partie ...
Merci!
Quelqu'un peut-il m'aider à analyser un fichier html pour obtenir les liens pour toutes les images dans le fichier en python?Python - Obtenir toutes les images d'un fichier html
De préférence avec un module de 3ème partie ...
Merci!
Vous pouvez utiliser Beautiful Soup. Je sais que vous avez dit sans un module tiers. Cependant, c'est un outil idéal pour analyser le HTML.
import urllib2
from BeautifulSoup import BeautifulSoup
page = BeautifulSoup(urllib2.urlopen("http://www.url.com"))
page.findAll('img')
seulement en utilisant PSL
from html.parser import HTMLParser
class MyParse(HTMLParser):
def handle_starttag(self, tag, attrs):
if tag=="img":
print(dict(attrs)["src"])
h=MyParse()
page=open("index.html").read()
h.feed(page)
Vous pouvez augmenter cela avec urllib pour ouvrir une page web et télécharger les images. –
Pour moi cela ne fonctionne qu'avec "from HTMLParser import HTMLParser" – nvrandow
Il est généralement admis que lxml est plus rapide que Belle soupe (ref). Son tutoriel peut être trouvé ici: (link) Vous pouvez également jeter un oeil à this old stackoverflow post.
OK. On dirait que cela va aider beaucoup, donc je vais vérifier. Merci! – user377419
Je pense que Russell a raté 'BeautifulSoup (page)' –