HTML grattage avec Hpricot (en utilisant Ruby on Rails)

J'ai lu beaucoup de tutoriels pour aider et sous Hpricot, le problème que je découvre c'est de ne pas racler tout le Html pour ainsi dire. Je vais élaborer:HTML grattage avec Hpricot (en utilisant Ruby on Rails)

Le site Web que j'essaie de gratter html est http://yellowpages.com.mt/Malta-Search/Radio-In-Malta-Gozo.aspx.

Je demande d'obtenir les liens qui sont énumérés comme résultats (je dois faire ceci pour possible n'importe quelle URL sur le site susmentionné et RSS par conséquent ou tel n'est pas salutaire car j'ai besoin du programme pour les lire sur-le- fly donné une url i feed.)

J'ai tout essayé de retirer l'ID spécifique i require (donnant dans la XPATH directe ainsi de suite un ainsi de suite) mais j'ai réalisé que quand je fais

doc = Hpricot(open("http://yellowpages.com.mt/Malta-Search/Radio-In-Malta-Gozo.aspx", 'User-Agent'=>'ruby')) str = doc puts str

le résultat fourni exclut tout le html lié aux liens dont j'ai besoin! Donc quelle que soit la méthode que j'utilise pour gratter, c'est de ne pas trouver les éléments nécessaires car ils ne sont pas là selon hpricot.

Quand je regarde le code source dans Firefox, je les vois cependant si je suis très confus. Y at-il quelqu'un qui sait comment faire pour contourner ce problème? J'ai essayé de trouver mon chemin depuis des lustres et je n'arrive pas à trouver une solution tout seul! Toute aide serait grandement appréciée

Source

2009-11-09 Erika

l'élément que je veux existe sur: html/body/form/table // tr/td/div/table [2] // tr [2]/td [2]/div/table/table // tr (où // signifie tbody) mais Hpricot ne lira pas passé html/body/form/table// // tr [2]/td [2]/div des idées? – Erika

Il semblerait que le site fasse quelque chose avec l'User-Agent. Si je change cette propriété pour correspondre à ce que ma version de Firefox envoie, j'obtiens le corps de réponse complet. Lorsque j'ai quitté la propriété en tant que «ruby», la réponse était incomplète. Je ne sais pas quelle est la cause profonde, mais cela semble atténuer les symptômes.

require 'rubygems' 
require 'hpricot' 
require 'open-uri' 

doc = open("http://yellowpages.com.mt/Malta-Search/Radio-In-Malta-Gozo.aspx", 'User-Agent'=>'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.6; en-US; rv:1.9.1.2) Gecko/20090729 Firefox/3.5.2') { |f| Hpricot(f) } 
puts doc.search('h6')

Espérons que cela aide!

Source

2009-11-10 00:54:51 Eric

A travaillé comme un charme! Merci beaucoup !! vous êtes un sauveur de vie <3 – Erika

HTML grattage avec Hpricot (en utilisant Ruby on Rails)

Répondre

Questions connexes