J'ai une application de robot d'indexation Web en Java qui doit accéder à tous les liens d'une page Web. Le problème est que sur certaines pages, les liens sont générés par une fonction javascript. Quelque chose comme:Récupération de pages Web avec des liens javascript à partir de Java
<a href="someJavascriptFunction()"> Lorem Ipsum </a>
Je suis au courant de HtmlUnit. Mais dans mes tests, c'était trop lent pour mes objectifs. Une page locale (dans http://localhost/test.html) a pris presque 2 secondes pour être récupérée. D'autres pages Web distantes ont pris beaucoup plus de temps.
Je voudrais trouver le moyen le plus simple/le plus rapide de trouver tous les liens dans une page Web, même les javascript en Java. (Les solutions en C/C++ sont les bienvenues). Je suis également conscient que Nutch (le crawler) a un extracteur de lien de Javascript, mais je ne suis pas sûr si ce code pourrait être "extrait" hors de Nutch pour être employé dans un autre contexte.
Je vais vérifier. Merci pour l'extrait de code. –