Obtenir le texte d'une page Web avec HTTPClient

Je commence juste avec HTTPClient, et je veux prendre une page Web et en extraire le texte brut moins tout le balisage html.Obtenir le texte d'une page Web avec HTTPClient

HTTPClient peut-il accomplir cela? Si c'est le cas, comment? Ou y a-t-il une autre bibliothèque que je devrais regarder?

par exemple, si la page contient

<body><p>para1 test info</p><div><p>more stuff here</p></div>

Je voudrais à la sortie

para1 test info more stuff here

Source

2010-07-07 James

Je suggère d'utiliser HttpComponents Client (HTTPClient 4) (au lieu de la version 3 à laquelle vous avez lié). Ceci étant dit, il est indépendant de la bibliothèque cliente HTTP (il y en a d'autres). Ce dont vous avez besoin est de convertir le HTML en texte brut. Cela peut être intéressant: http://www.rgagnon.com/javadetails/java-0424.html

Source

2010-07-07 18:57:39 Bruno

Le HTML Parser library pourrait être ce que vous recherchez. Il permet l'extraction du contenu d'un document HTML.

Source

2010-07-07 18:56:38 Jeff

N ° HttpClient gère le protocole réseau - envoi de requêtes et réception de réponses. C'est à vous de déterminer ce qu'il faut faire avec la réponse une fois que vous la recevez. Cela dit, vous pouvez utiliser d'autres bibliothèques pour analyser HTML comme d'autres l'ont suggéré.

Source

2010-07-07 19:04:27

Comme d'autres l'ont mentionné, vous avez besoin d'une bibliothèque d'analyse HTML. Here est une question pertinente.

Source

2010-07-07 19:22:59 laz

Obtenir le texte d'une page Web avec HTTPClient

Répondre

Questions connexes