Quelqu'un at-il une bonne solution pour gratter la source HTML d'une page avec un contenu (dans ce cas, les tableaux HTML) générés avec Javascript?Quelqu'un at-il une bonne solution pour gratter la source HTML d'une page avec un contenu (dans ce cas, les tableaux HTML) générés avec Javascript?
Un honteusement simple, si une solution viable en utilisant Crowbar:
<?php
function get_html($url) // $url must be urlencode(d)
{
$context = stream_context_create(array(
'http' => array('timeout' => 120) // HTTP timeout in seconds
));
$html = substr(file_get_contents('http://127.0.0.1:10000/?url=' . $url . '&delay=3000&view=browser', 0, $context), 730, -32); // substr removes HTML from the Crowbar web service, returning only the $url HTML
return $html;
}
?>
L'avantage d'utiliser Crowbar est que les tableaux seront rendus (et accessibles) grâce au navigateur basé sur mozilla-sans tête. Edit: a découvert que le problème avec Crowbar était une application en conflit, pas le temps d'arrêt du serveur, ce qui était juste une coïncidence.