2010-10-12 12 views
0

J'ai un problème pour extraire des données de source html.python beautifulsoup problème lié

suivant est sniffit de mon code source html, et je veux extraire la valeur de chaîne dans tous les

suivant

<td class="gamedate">10/12 00:59</b></td> 

<td class="gametype">오버언더</b></td> 

<td class="legue"><nobr style="width:100%;overflow:hidden;letter-spacing:-1;font-size:11px;"><nobr style='display:block; overflow:hidden;'><img src='../data/banner/25' border='0' width='20' height='13' alt='' align='absmiddle'></a> 그리스 D2</nobr> 

<td class="bet" id="team1_27771" class="homeTeam1">Pas Giannina (↑오버)</td> 

<td class="bet" id="bet1_27771" class="homeTeam2" align="right">1.65</td> 

<td class="pointer muSelect" id="chk_27771_3" num='27771' bet='2.5' sp='오버언더' bgcolor="f0f0f0" class="handy handy1" ><span id="bet3_27771">2.5</span></td> 

<td class="bet" id="bet2_27771" class="awayTeam2" align="left">1.95</td> 

<td class="bet" id="team2_27771" class="awayTeam1">Pierikos (↓언더)</td> 

donc ce que je veux la valeur finale extrait est

10/12 00:59 

오버언더 

그리스 D2 

Pas Giannina (↑오버) 

1.65 

2.5 

1.95 

Pierikos (↓언더) 

suivant est mon html source complète

aidez-moi s'il vous plaît! Merci d'avance!

parce que la source html est un peu grand pour que je me télécharger sur Pastebin.com

http://pastebin.com/Gdun0jhf

+0

C'est un peu difficile de voir quelle est votre question, où êtes-vous coincé? – Tim

+1

Peut-être que vous pourriez poster quel code Python vous avez déjà jusqu'à présent? – Amber

Répondre

1

Pourquoi ne pas simplement remplacer un ne sur la chaîne

html.replace("AAAAAA", "Put what you want for AAAAAA here") 

et cela pour tous les choses que vous voulez remplacer?

Ignore, je manque lu la question complètement mon cerveau ne doit pas être aujourd'hui

+0

Euh, l'OP n'essaie pas de remplacer les choses, ils essaient d'obtenir les valeurs situées à certains endroits. Ils insèrent manuellement les chaînes de lettres dans leur code HTML comme * exemples * de ce qu'ils veulent retirer. – Amber

+0

Je suppose que c'est ce que l'OP voulait, cool – Zimm3r

0

Quelque chose comme cela fonctionne sur une table de base:

soup = BeautifulSoup.BeautifulSoup(YOUR_HTML) 
table = soup.find('TABLE_ID') 
for td in table.findAll('td'): 
    print td.string 

mais il semble comme le html que vous traitez est un peu plus en désordre. SO peut-être qu'il serait préférable d'aller après chacun des TD par nom de classe? par exemple.

soup = BeautifulSoup.BeautifulSoup(YOUR_HTML) 

#game date 
game_dates = soup.findAll('td', {class: 'gamedate' }) 
for game_date in game_dates: 
    print game_date 

#bets 
bets = soup.findAll('td', {class: 'bet' }) 
for bet in bets: 
    print bet