Je travaille sur un projet qui implique la conversion d'une grande quantité de contenu HTML en texte brut. J'ai un module écrit sur mesure qui fonctionne bien, mais je me demande s'il existe des outils standard pour faire le travail.Meilleur moyen de convertir du HTML en texte brut en utilisant Python
Répondre
Html2Text semble être une bonne option
Voici une bibliothèque Python qui fait l'analyse syntaxique HTML:
BeautifulSoup est une autre option.
Pour éviter que d'autres ne reviennent de Google à SO, voici un Q & A qui explique que Beautiful Soup n'est plus vraiment maintenu: [WebScraping with BeautifulSoup ou LXML.HTML] (http://stackoverflow.com/questions/5493514/webscraping-with-beautifulsoup-or-lxml-html). – sage
Belle soupe semble être maintenue maintenant je pense. – contrebis
celui-ci fonctionne très bien –
Le site n'est plus accessible depuis Aaron, l'auteur n'est plus. –
mais le code peut être trouvé sur https://github.com/aaronsw/html2text –