2010-04-16 14 views

Répondre

0

Nokogiri et hpricot sont assez interchangeables. C'est à dire. Nokogiri (html) est un équivalent de Hpricot (html). Je ne suis pas vraiment sûr de comprendre ce que l'article lié essaie de réaliser, mais de:

Extrait du texte d'un corps HTML qui inclut l'ignorance de grands espaces blancs entre les étiquettes et les mots.

Cela serait une approche plus facile dans Hpricot, et supprimer le besoin de hpricot.search("script").remove bits. C'est à dire. Procurez-vous le corps en premier lieu:

Hpricot(html).search('body').inner_text.gsub("\r"," ").gsub("\n"," ").split(" ").join(" ") 

Et Nokogiri:

Nokogiri(html).search('body').inner_text.gsub("\r"," ").gsub("\n"," ").split(" ").join(" ")