2010-10-05 14 views
0

Lorsque j'utilise wget pour créer des copies statiques de mon site, plusieurs éléments nécessitent des ressources externes qui sont récupérées via javascript. Le modèle du script doit être assez constant et aucune URL n'est créée dynamiquement. Les urls que je dois ressembler à extraire:Utiliser grep pour capturer des liens javascript

onclick="return ns.homepage.load({e:this, src:'https://mysub.mydomain.tld/somedir/content/123456789.html'})" 

Je voudrais sortir la liste de ces urls dans un fichier local pour que je puisse les wget aussi bien.

Répondre

0

utilisez perl + HTML :: TreeBuilder pour tirer votre code de bord, puis l'analyser.

Vous devrez peut-être faire un peu de travail sur la regex, c'est-à-dire que ce module peut vous amener à ignorer l'événement 'onclick()' - mais cela ne devrait pas être trop grave.

+0

Cela m'a définitivement mis sur la bonne voie. Merci – David