2010-12-15 121 views
6

J'ai cherché quelques tutoriels/autres questions sur la pile/documentation et je n'arrive toujours pas à comprendre. Pouah!!! Faire la demande d'API et l'analyse (vouloir assigner aux variables mais c'est un bonus à cette question), c'est ce que j'essaye. Pourquoi ne puis-je pas répertorier le titre et le lien pour les éléments?Python (débutant) Parse XML à partir de l'appel API

#!/usr/bin/python 

# Screen Scraper for Subs 
import urllib 
from xml.etree import ElementTree as ET 

show = 'heroes' 
season = '4' 
language = 'en' 
limit = '1' 

requestURL = 'http://api.allsubs.org/index.php?' \ 
      + 'search=' + show \ 
      + '+season+' + season \ 
      + '&language=' + language \ 
      + '&limit=' + limit 

root = ET.parse(urllib.urlopen(requestURL)).getroot() 
print root 
print '\n' 

items = root.findall('items') 
for item in items: 
    item.find('title').text # should print: <![CDATA[Heroes Season 4 Subtitles]]> 
    item.find('link').text # Should print: http://www.allsubs.org/subs-download/heroes+season+4/1223435/ 

XML Réponse

 <AllSubsAPI> 
     <title>AllSubs API: Subtitles Search</title> 
     <link>http://www.allsubs.org</link> 
     <description><![CDATA[Subtitles Search for Heroes Season 4]]></description> 
     <language>en-us</language> 
     <results>1</results> 
     <found_results>24</found_results> 
<items> 
    <item> 
      <title><![CDATA[Heroes Season 4 Subtitles]]></title> 
      <link>http://www.allsubs.org/subs-download/heroes+season+4/1223435/</link> 
      <filename>heroes-season-4-english-heroes-season-4-en.zip</filename> 
      <files_in_archive>Heroes - 4x01-02 - Orientation.HDTV.FQM.en.srt|Heroes - 4x17 - The Art of Deception.HDTV.2HD.en.srt|Heroes - 4x07 - Strange Attractors.HDTV.LOL.en.srt|Heroes - 4x08 - Once Upon a Time in Texas.HDTV.2HD.en.srt|Heroes - 4x07 - Strange Attractors.720p HDTV.DIMENSION.en.srt|Heroes - 4x05 - Hysterical Blindness.720p HDTV.X264.en.srt|Heroes - 4x09 - Shadowboxing.HDTV.LOL.en.srt|Heroes - 4x16 - Pass Fail.HDTV.LOL.en.srt|Heroes - 4x04 - Acceptance.HDTV.en.srt|Heroes - 4x01-02 - Orientation.720p HDTV.DIMENSION.en.srt|Heroes - 4x06 - Tabula Rasa.HDTV.NoTV.en.srt|Heroes - 4x10 - Brother's Keeper.HDTV.FQM.en.srt|Heroes - 4x04 - Acceptance.HDTV.FQM.en.srt|Heroes - 4x14 - Let It Bleed.720p HDTV.DIMENSION.en.srt|Heroes - 4x06 - Tabula Rasa.720p HDTV.SiTV.en.srt|Heroes - 4x08 - Once Upon a Time in Texas.HDTV.NoTV.en.srt|Heroes - 4x12 - The Fifth Stage.HDTV.LOL.en.srt|Heroes - 4x19 - Brave New World.HDTV.LOL.en.srt|Heroes - 4x15 - Close to You.720p HDTV.DIMENSION.en.srt|Heroes - 4x03 - Ink.720p HDTV.DIMENSION.en.srt|Heroes - 4x11 - Thanksgiving.720p HDTV.DIMENSION.en.srt|Heroes - 4x13 - Upon This Rock.720p HDTV.DIMENSION.en.srt|Heroes - 4x13 - Upon This Rock.HDTV.LOL.en.srt|Heroes - 4x14 - Let It Bleed.HDTV.LOL.en.srt|Heroes - 4x15 - Close to You.HDTV.LOL.en.srt|Heroes - 4x12 - The Fifth Stage.720p HDTV.DIMENSION.en.srt|Heroes - 4x18 - The Wall.HDTV.LOL.en.srt|Heroes - 4x08 - Once Upon a Time in Texas.720p HDTV.CTU.en.srt|Heroes - 4x17 - The Art of Deception.HDTV.CTU.en.srt|Heroes - 4x09 - Shadowboxing.720p HDTV.DIMENSION.en.srt|Heroes - 4x10 - Brother's Keeper.720p HDTV.DIMENSION.en.srt|Heroes - 4x04 - Acceptance.720p HDTV.CTU.en.srt|Heroes - 4x11 - Thanksgiving.HDTV.FQM.en.srt|Heroes - 4x03 - Ink.HDTV.FQM.en.srt|Heroes - 4x05 - Hysterical Blindness.HDTV.XII.en.srt|</files_in_archive> 
      <languages>en</languages> 
      <added_on>2010-02-16</added_on> 
    </item> 

</items> 
</AllSubsAPI> 

MISE À JOUR:

Cela a fonctionné, grâce à l'aide et en montrant ma faute de frappe

items = root.findall('items/item') 
for item in items: 
    print item.find('title').text 
    print item.find('link').text 
+1

http://api.allsubs.org/index.php?search=heros+season+4&language=en&limit=1 est le requestURL, et je reçois pas de résultats - I pense que tu ne comprends pas bien ... – Spacedman

+1

ah, show = 'héros' avec un E pas 'heros'! Essayez ça! – Spacedman

Répondre

4
items = root.findall('items') 

devrait être

items = root.findall('items/item') 
2

Vous ne faites pas d'itérations sur les éléments 'item', vous itérez en fait sur les éléments 'items'.

Je pense qu'il devrait être:

items = root.findall('items') 
childItems = items.findall('item') 
for childItem in childItems: 
    childItem.find('title').text # should print: <![CDATA[Heroes Season 4 Subtitles]]> 
    childItem.find('link').text # Should print: http://www.allsubs.org/subs-download/heroes+season+4/1223435 
3

Cela fonctionne pour moi. Notez que je utilise urllib2 pour passer à travers un proxy: ce que vous voulez faire une boucle sur (je pense)

import urllib2 
from xml.etree import ElementTree as ET 

show = 'heroes' 
season = '4' 
language = 'en' 
limit = '1' 

requestURL = 'http://api.allsubs.org/index.php?' \ 
      + 'search=' + show \ 
      + '+season+' + season \ 
      + '&language=' + language \ 
      + '&limit=' + limit 

root = ET.parse(urllib2.urlopen(requestURL)).getroot() 
print root 
print '\n' 

items = root.findall('items')[0].findall('item') 
for item in items: 
    print item.find('title').text # should print: <![CDATA[Heroes Season 4 Subtitles]]> 
    print item.find('link').text # Should print: http://www.allsubs.org/subs-download/heroes+season+4/1223435/ 

Notez que findall (« articles ») trouve l'étiquette « éléments », sont les balises « item » à l'intérieur, nous trouvons tous() de ceux-là. En outre, vous devez imprimer pour obtenir quelque chose de python.

De plus, si je le fais avec limite = 2, je reçois:

Traceback (most recent call last): 
    File "heros.py", line 18, in <module> 
    root = ET.parse(urllib2.urlopen(requestURL)).getroot() 
    File "/usr/lib/python2.6/xml/etree/ElementTree.py", line 862, in parse 
    tree.parse(source, parser) 
    File "/usr/lib/python2.6/xml/etree/ElementTree.py", line 586, in parse 
    parser.feed(data) 
    File "/usr/lib/python2.6/xml/etree/ElementTree.py", line 1245, in feed 
    self._parser.Parse(data, 0) 
xml.parsers.expat.ExpatError: not well-formed (invalid token): line 24, column 95 

Je ne suis pas sûr que le XML à revenir de cette API est bien formé - il n'y a aucun élément « xml » à le départ pour les débutants. Je ne lui ferais pas confiance ...

+0

ouais pas sûr si ils savent ce qu'ils font sur ce site, merci pour les heads up –

+0

alors urllib2 est utilisé pour les proxies? –

+0

c'est l'une des bonnes choses qu'il fait - il respecte les paramètres d'environnement http_proxy et les proxies à travers lui. – Spacedman