Python - Obtenir toutes les images d'un fichier html

Quelqu'un peut-il m'aider à analyser un fichier html pour obtenir les liens pour toutes les images dans le fichier en python?Python - Obtenir toutes les images d'un fichier html

De préférence avec un module de 3ème partie ...

Merci!

Source

2010-11-28 user377419

Vous pouvez utiliser Beautiful Soup. Je sais que vous avez dit sans un module tiers. Cependant, c'est un outil idéal pour analyser le HTML.

import urllib2 
from BeautifulSoup import BeautifulSoup 
page = BeautifulSoup(urllib2.urlopen("http://www.url.com")) 
page.findAll('img')

Source

2010-11-28 03:21:41

OK. On dirait que cela va aider beaucoup, donc je vais vérifier. Merci! – user377419

Je pense que Russell a raté 'BeautifulSoup (page)' –

seulement en utilisant PSL

from html.parser import HTMLParser 
class MyParse(HTMLParser): 
    def handle_starttag(self, tag, attrs): 
     if tag=="img": 
      print(dict(attrs)["src"]) 

h=MyParse() 
page=open("index.html").read() 
h.feed(page)

Source

2010-11-28 03:38:21 Kabie

Vous pouvez augmenter cela avec urllib pour ouvrir une page web et télécharger les images. –

Pour moi cela ne fonctionne qu'avec "from HTMLParser import HTMLParser" – nvrandow

Il est généralement admis que lxml est plus rapide que Belle soupe (ref). Son tutoriel peut être trouvé ici: (link) Vous pouvez également jeter un oeil à this old stackoverflow post.

Source

2010-11-28 04:34:42

Python - Obtenir toutes les images d'un fichier html

Répondre

Questions connexes