Je connais des utilitaires comme html2text, BeautifulSoup etc. mais le problème est qu'ils extraient également javascript et l'ajoutent au texte, rendant difficile leur séparation.Extraction de texte lisible à partir de HTML en utilisant Python?
htmlDom = BeautifulSoup(webPage)
htmlDom.findAll(text=True)
Alternativement,
from stripogram import html2text
extract = html2text(webPage)
Ces deux extraire tout le javascript sur la page ainsi, cela est indésirable.
Je voulais juste que le texte lisible que vous pourriez copier de votre navigateur soit extrait.
Merci! Ça fonctionne parfaitement. – demos
@demos, de rien, heureux d'entendre ça! BTW, pourquoi l'accepter (et btw tx pour cela!) Sans un upvote? Semble étrange! -) –
@Alex Martelli Le premier upvote est de moi. Quel dommage qu'il n'y ait eu aucun upvote sur cette réponse depuis 19 mois! – eyquem