Comment analyser le lien RSS (obtenir ulr à RSS) de la page dans le cadre Python Scrapy?

Je veux analyser la recherche Google et obtenir des liens vers RSS à partir de chaque élément des résultats de recherche. J'utilise Scrapy. J'ai essayé cette construction,Comment analyser le lien RSS (obtenir ulr à RSS) de la page dans le cadre Python Scrapy?

... 
def parse_second(self, response): 
    hxs = HtmlXPathSelector(response) 
    qqq = hxs.select('/html/head/link[@type=application/rss+xml]/@href').extract() 
    print qqq 
    item = response.request.meta['item'] 
    if len(qqq) > 0: 
     item['rss'] = qqq.pop() 
    else: 
     item['rss'] = ''  
    yield item 
...

mais "print QQQ" me donne

[]

Source

2010-07-29 Gennadich

Pourriez-vous inclure un échantillon de le HTML que vous essayez de faire correspondre? – MattH

trouvé une erreur:

qqq = hxs.select("/html/head/link[@type='application/rss+xml']/@href").extract()

qui fonctionne

Source

2010-07-29 12:06:59 Gennadich

Comment analyser le lien RSS (obtenir ulr à RSS) de la page dans le cadre Python Scrapy?

Répondre

Questions connexes