2010-08-22 15 views

Répondre

6

utilisation element.inner_text au lieu de #inner_html et les supprime pour vous

+2

Vous aurez probablement besoin d'un # inner_text.strip pour se débarrasser de l'espace externe (presque garanti). – Simon

2
doc.search("*") do |element| 
    element.swap element.content if element.kind_of? Hpricot::CData 
end 
1
doc = Hpricot::XML(open('http://www.cnn.com/.element/ssi/www/auto/2.0/video/xml/most_popular.xml')) 
(doc/:cnn_video/:video).each do |status| 
    ['tease_txt'].each do |el| 
    puts "#{status.at(el).inner_text}" 
    end 
end 

Exemple de sortie (mais cela semble spammy est pas le spam!):

New Reno air vidéo de choc montre l'impact
Adolescent attrape gator de 800 livres
Reprise de carrières après 'ne pas demander' abroger
jupe Creepy rainettes
satellite Bus taille pour frapper la Terre thi ...
casting frappe salle de bal « DWTS » pour la première fois
Ce qui a causé la mort de formateur à SeaWorld?
Qu'est-ce qui a mené au refus de clémence de Troy Davis?