J'ai lu beaucoup de tutoriels pour aider et sous Hpricot, le problème que je découvre c'est de ne pas racler tout le Html pour ainsi dire. Je vais élaborer:HTML grattage avec Hpricot (en utilisant Ruby on Rails)
Le site Web que j'essaie de gratter html est http://yellowpages.com.mt/Malta-Search/Radio-In-Malta-Gozo.aspx
.
Je demande d'obtenir les liens qui sont énumérés comme résultats (je dois faire ceci pour possible n'importe quelle URL sur le site susmentionné et RSS par conséquent ou tel n'est pas salutaire car j'ai besoin du programme pour les lire sur-le- fly donné une url i feed.)
J'ai tout essayé de retirer l'ID spécifique i require (donnant dans la XPATH directe ainsi de suite un ainsi de suite) mais j'ai réalisé que quand je fais
doc = Hpricot(open("http://yellowpages.com.mt/Malta-Search/Radio-In-Malta-Gozo.aspx", 'User-Agent'=>'ruby')) str = doc puts str
le résultat fourni exclut tout le html lié aux liens dont j'ai besoin! Donc quelle que soit la méthode que j'utilise pour gratter, c'est de ne pas trouver les éléments nécessaires car ils ne sont pas là selon hpricot.
Quand je regarde le code source dans Firefox, je les vois cependant si je suis très confus. Y at-il quelqu'un qui sait comment faire pour contourner ce problème? J'ai essayé de trouver mon chemin depuis des lustres et je n'arrive pas à trouver une solution tout seul! Toute aide serait grandement appréciée
l'élément que je veux existe sur: html/body/form/table // tr/td/div/table [2] // tr [2]/td [2]/div/table/table // tr (où // signifie tbody) mais Hpricot ne lira pas passé html/body/form/table// // tr [2]/td [2]/div des idées? – Erika