Je fais une analyse en extrayant du contenu Web en utilisant mes robots d'exploration. Les pages Web contiennent souvent du fouillis (comme des publicités, des images inutiles et des liens superflus) autour du corps d'un article qui distrait un utilisateur du contenu réel.Extraire du contenu complet à partir de pages Web
Pour extraire le contenu sensible est un problème difficile que je comprends, compte tenu du fait qu'il n'y a pas de norme qui définit la position réelle d'un article de nouvelles/blog/commentaire/article dans la page Web.
je pourrais trouver des solutions open source comme ceci: https://metacpan.org/pod/HTML::ContentExtractor
Mais je suis curieux de savoir si quelqu'un a traité ce et a obtenu le taux de réussite raisonnable. Cela semble un problème assez commun et j'aimerais croire que de nombreux experts sont là. Je préférerais une solution basée sur JAVA mais ce n'est pas une règle difficile. S'il vous plaît donner quelques entrées. Je vais profondément apprécier.