2009-06-04 6 views
0

Nous récupérons les mails de notre compte gmail en utilisant IMAP4_SSL et python. Le corps de l'e-mail est récupéré au format html. Nous devons convertir cela en texte brut. Quelqu'un peut-il nous aider avec ça?IMAP4_SSL avec gmail en python

Répondre

2

Tenez-vous sur les épaules des géants ...
Peter Bengtsson a trouvé une solution à ce problème exact here.
Le script de Peter utilise le génial BeautifulSoup, par Leonard Richardson,
et unescape() function de Fredrik Lundh.

En utilisant le cas de test de Peter, vous obtenez ceci:

This is a paragraph. 

Foobar [1] 
http://two.com 

Visit http://www.google.com. 

Text elsewhere. Elsewhere [2] 

[1] http://one.com 
[2] http://three.com 

... de ceci:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"> 
<html> 
<body> 

<div id="main"> 
<p>This is a paragraph.</p> 

<p><a href="http://one.com">Foobar</a> 
<br /> 

<a href="http://two.com">two.com</a> 

</p> 
    <p>Visit <a href="http://www.google.com">www.google.com</a>.</p> 
<br /> 
Text elsewhere. 

<a href="http://three.com">Elsewhere</a> 

</div> 
</body> 
</html>