C'est ce que je fais:problème StringEscapeUtils.unescapeHtml() dans les entités déséchapper HTML pour Android
public static String htmlToText(String inString)
{
String noentity=StringEscapeUtils.unescapeHtml(inString);
return noentity;
}
C'est là je l'invoque:
String html = "<html><body>string 1<br />—<p>string 2</p></body></html>";
String nohtml = Utility.htmlToText(html);
Log.i("NON HTML STRING:",nohtml);
Et c'est la sortie dans le journal:
10-13 12:38:12.121: INFO/NON HTML STRING:(300): <html><body>string 1<br />â<p>string 2</p></body></html>
Selon la référence à http://www.w3.org/TR/html4/sgml/entities.html—
doit être remplacé d par un "-" (qui est la sortie que j'attends) et non un "â" (ce qui n'est pas ce que je veux). Au début, j'utilisais JSoup et la même chose se passait. En pensant que c'était un bug, je suis passé à org.apache.commons.lang et la même chose arrive.
Quelqu'un d'autre sait ce qui se passe ici? Est-ce que je manque quelque chose d'évident?
http://www.docjar.com/html/api/org/apache/commons/lang/StringEscapeUtils.java. html –