2010-06-09 11 views

Répondre

0

Que voulez-vous exactement enlever, tous les éléments de script et de style? Il devrait être quelque chose comme:

''.join(BeautifulSoup(content).findAll(text=lambda text: 
text.parent.name != "script" and 
text.parent.name != "style")) 
+0

ce droit, probablement un remplacement de regex pourrait le faire, mais je me demandais si beautifulsoup gère tthat. Ou est-ce que la "version simple de webstemmer" pourrait le faire aussi? – goh