2010-07-07 11 views
1

Je commence juste avec HTTPClient, et je veux prendre une page Web et en extraire le texte brut moins tout le balisage html.Obtenir le texte d'une page Web avec HTTPClient

HTTPClient peut-il accomplir cela? Si c'est le cas, comment? Ou y a-t-il une autre bibliothèque que je devrais regarder?

par exemple, si la page contient

<body><p>para1 test info</p><div><p>more stuff here</p></div> 

Je voudrais à la sortie

para1 test info more stuff here 

Répondre

0

Le HTML Parser library pourrait être ce que vous recherchez. Il permet l'extraction du contenu d'un document HTML.

1

N ° HttpClient gère le protocole réseau - envoi de requêtes et réception de réponses. C'est à vous de déterminer ce qu'il faut faire avec la réponse une fois que vous la recevez. Cela dit, vous pouvez utiliser d'autres bibliothèques pour analyser HTML comme d'autres l'ont suggéré.

0

Comme d'autres l'ont mentionné, vous avez besoin d'une bibliothèque d'analyse HTML. Here est une question pertinente.