2010-07-01 14 views
1

Je suis actuellement en utilisant BeautifulSoup pour gratter certains sites Web, mais j'ai un problème avec certains caractères spécifiques, le code à l'intérieur de UnicodeDammit semble indiquer que (encore) sont certains inventés par Microsoft.Échapper & hellip; avec BeautifulSoup

J'utilise la dernière version de BeautifulSoup (3.0.8.1) que je suis toujours en utilisant python2.5

Le code suivant illustre mon problème:

from BeautifulSoup import BeautifulSoup 
soup = BeautifulSoup('...Baby One More Time (Digital Deluxe Version…') 
print soup 

'...Baby One More Time (Digital Deluxe Version…' 

Comme vous pouvez le voir le problème est le caractère '& hellip;' (& hellip) à la fin (que votre navigateur a probablement échappé correctement). Évidemment ce n'est pas ce qui m'intéresse.

Ce serait bien d'avoir cette représentation unicode caractères ou quelque chose. Même en l'ignorant, cela résoudrait mon problème particulier.

Comment est-ce que je peux faire ceci avec BeautifulSoup?

Répondre

1

trouvé la solution moi-même:

soup = BeautifulSoup('...Baby One More Time (Digital Deluxe Version…', convertEntities="html")