Je commence juste avec HTTPClient, et je veux prendre une page Web et en extraire le texte brut moins tout le balisage html.Obtenir le texte d'une page Web avec HTTPClient
HTTPClient peut-il accomplir cela? Si c'est le cas, comment? Ou y a-t-il une autre bibliothèque que je devrais regarder?
par exemple, si la page contient
<body><p>para1 test info</p><div><p>more stuff here</p></div>
Je voudrais à la sortie
para1 test info more stuff here