2010-11-05 22 views
0

J'essaie de retirer le texte alt de toutes les images sur une page en utilisant Hpricot mais je ne sais pas comment le faire.Hpricot parse image alt text

Quelqu'un at-il déjà fait cela?

Merci! Dennis

+0

Il est vraiment facile à faire, mais nous aimerions voir ce que vous avez essayé, car il est si facile. –

Répondre

2

Ceci est ma première fois en utilisant Hpricot alors soyez doux. Je pense que cela isole les données que vous posiez.

require 'rubygems' 
require 'hpricot' 

page = "<html><body><p>Create a link of an image:<a href=\"default.asp\"><img src=\"smiley.gif\" alt=\"alt_text_1\" width=\"32\" height=\"32\" /></a></p><p>No border around the image, but still a link:<a href=\"default.asp\"><img border=\"0\" src=\"smiley.gif\" alt=\"alt_text_2\" width=\"32\" height=\"32\" /></a></p></body></html>" 
doc = Hpricot(page) 

doc.search("//img").each do |img| 
    puts img.attributes['alt'] 
end 

sortie ressemble à ceci:

#=> alt_text_1 
#=> alt_text_2