Je travaille sur un projet d'école dans lequel nous aimerions analyser le contenu des pages web. Cependant, nous ne voulons pas traiter des choses comme les barres de navigation et les commentaires. Si nous regardions un site Web spécifique, nous pourrions faire un analyseur pour filtrer ce genre de choses extrinsèques spécifiquement pour ce site, mais nous espérons travailler sur des sites arbitraires que nous n'avons peut-être jamais rencontrés auparavant.Existe-t-il des outils pour isoler le contenu d'une page Web?
Je pense que c'est un peu beaucoup d'espoir, donc je ne serai pas surpris si rien de tel n'existe déjà, mais est-ce que quelqu'un connaît un outil qui peut faire ce genre d'isolation de contenu sur des sites Web arbitraires? J'ai eu un peu de chance en comparant les pages avec d'autres du même site, mais c'est imparfait et laisse des commentaires et autres.
Je travaille en Java, mais j'accueillerais tout ce qui est open source dans n'importe quelle langue que je pourrais utiliser pour des idées.
Cela semble vraiment cool! Je vais devoir regarder de plus près. – Matt