2010-11-09 19 views
0

J'ai une application de robot d'indexation Web en Java qui doit accéder à tous les liens d'une page Web. Le problème est que sur certaines pages, les liens sont générés par une fonction javascript. Quelque chose comme:Récupération de pages Web avec des liens javascript à partir de Java

<a href="someJavascriptFunction()"> Lorem Ipsum </a> 

Je suis au courant de HtmlUnit. Mais dans mes tests, c'était trop lent pour mes objectifs. Une page locale (dans http://localhost/test.html) a pris presque 2 secondes pour être récupérée. D'autres pages Web distantes ont pris beaucoup plus de temps.

Je voudrais trouver le moyen le plus simple/le plus rapide de trouver tous les liens dans une page Web, même les javascript en Java. (Les solutions en C/C++ sont les bienvenues). Je suis également conscient que Nutch (le crawler) a un extracteur de lien de Javascript, mais je ne suis pas sûr si ce code pourrait être "extrait" hors de Nutch pour être employé dans un autre contexte.

Répondre