Étant donné une page HTML qui est un article lourd de texte, je voudrais identifier et analyser le contenu principal. En utilisant http://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.html en tant qu'exemple, je veux identifier div # post-4438372351887392855, qui contient le titre et l'articleIdentification du contenu principal d'une page
Je sais que rien ne peut être parfait ou fonctionner 100% du temps, mais y a-t-il une approche qui peut me donner le résultat souhaité dans un nombre raisonnable de circonstances? Ma pensée actuelle est d'itérer à travers chaque div, en retirant le balisage, puis en trouvant le div le plus interne qui contient le plus de texte. À ce stade, je ne fais que commencer, donc je cherche des idées que je peux mettre en place pour une approche conceptuelle. Ou, si quelque chose est là-bas, une bibliothèque open source serait bien.
Merci d'avance pour les idées.