2010-11-20 27 views
8

Pour HTML suivant, je veux analyser et obtenir le résultat suivant en utilisant Nokogiri.get div imbriqué dans l'élément div en utilisant Nokogiri

event_name = "folk concert 2" 
event_link = "http://www.douban.com/event/12761580/"  
event_date = "20th,11,2010" 

Je sais que doc.xpath('//div[@class="nof clearfix"]') pourrait obtenir chaque élément div, mais comment dois-je procéder pour obtenir l'attribution comme event_name, et surtout le date?

HTML

<div class="nof clearfix">   
      <h2><a href="http://www.douban.com/event/12761580/">folk concert 2</a> <span class="pl2"> </span></h2> 
      <div class="pl intro"> 
       Date:25th,11,2010<br/> 
      </div> 
</div> 
<div class="nof clearfix">   
      <h2><a href="http://www.douban.com/event/12761581/">folk concert </a> <span class="pl2"> </span></h2> 
      <div class="pl intro"> 
       Date:10th,11,2010<br/> 
      </div> 
</div> 

Répondre

15

Je ne sais pas XPath, je préfère utiliser des sélecteurs css, ils font plus de sens pour moi. This tutorial peut être utile pour vous.

require 'rubygems' 
require 'nokogiri' 
require 'pp' 

Event = Struct.new :name , :link , :date 

doc = Nokogiri::HTML DATA 

events = doc.css("div.nof.clearfix").map do |eventnode| 
    name = eventnode.at_css("h2 a").text.strip 
    link = eventnode.at_css("h2 a")['href'] 
    date = eventnode.at_css("div.pl.intro").text.strip 
    Event.new name , link , date 
end 

pp events 


__END__ 
<div class="nof clearfix">   
     <h2><a href="http://www.douban.com/event/12761580/">folk concert 2</a> <span class="pl2"> </span></h2> 
      <div class="pl intro"> 
      Date: 25th,11,2010<br/> 
      </div> 
</div> 
<div class="nof clearfix">   
     <h2><a href="http://www.douban.com/event/12761581/">folk concert </a> <span class="pl2"> </span></h2> 
      <div class="pl intro"> 
      Date: 10th,11,2010<br/> 
      </div> 
</div> 

Ce sorties:

[#<struct Event 
    name="folk concert 2", 
    link="http://www.douban.com/event/12761580/", 
    date="Date: 25th,11,2010">, 
#<struct Event 
    name="folk concert", 
    link="http://www.douban.com/event/12761581/", 
    date="Date: 10th,11,2010">] 
+0

I fonctionne parfaitement. Merci. – pierrotlefou