Je suis à la recherche d'un module python qui m'aidera à me débarrasser des balises HTML tout en conservant les valeurs du texte. J'ai essayé BeautifulSoup avant et je ne pouvais pas comprendre comment faire cette tâche simple. J'ai essayé de rechercher des modules Python qui pourraient le faire mais ils semblent tous dépendre d'autres bibliothèques qui ne fonctionnent pas bien sur AppEngine.Supprimer les balises HTML dans AppEngine Python Env (équivalent à Ruby's Sanitize)
est un code ci-dessous exemple de la bibliothèque de sanitize Ruby et c'est ce que je suis après en Python:
require 'rubygems'
require 'sanitize'
html = '<b><a href="http://foo.com/">foo</a></b><img src="http://foo.com/bar.jpg" />'
Sanitize.clean(html) # => 'foo'
Merci pour vos suggestions.
-e
Merci, Alex. Cela devrait fonctionner - la dernière fois que j'ai essayé BeautifulSoup, je suis entré dans l'analyse de nœud par nœud et cela est devenu très lent. Maintenant que j'ai changé la façon dont je gère mon code HTML, je pourrais utiliser BeautifulSoup pour le nettoyage. J'ai complètement oublié l'option text = True. Merci! – Ecognium
@Ecognium, de rien! –
Pour l'utiliser dans App Engine, installez BeatifulSoup localement et utilisez le fichier dans /Bibliothèque/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages. Ou utilisez simplement ceci: http://dl.dropbox.com/u/9632169/BeautifulSoup.py – crizCraig