J'utilise la bibliothèque HtmlCleaner pour l'extraction de contenu html. Cela fonctionne bien mais avec peu de limitations.Gestion d'entités spéciales telles que & nbsp;, & pound; dans HtmlCleaner
Il n'est pas capable de gérer les caractères spéciaux tels que & livre ou guillemets etc. Pour e.x. pour l'url: http://www.basicelegancefurnishings.co.uk/alaska-3-and-2-seater-sofa-setspan-classukmadespan-p-280.html, Sur donner xpath au prix, il me donne "& pound;" inplace de £
Y at-il une propriété que nous pouvons définir dans htmlcleaner pour gérer cette solution ou toute autre solution.
Merci
Jitendra
Je ne connaissais pas StringEscapeUtils. Merci pour cela. L'extraction de contenu dans mon cas est basée sur xpaths. Est-ce que Jsoup supporte cela? – RandomQuestion
jsoup prend en charge les sélecteurs CSS pour l'extraction de contenu; devrait faire ce dont vous avez besoin. –