J'essaye de créer un crawler pour télécharger du contenu d'un site Web.meta refresh télécharger/C# crawler
En supposant que l'URL pour consommer est quelque chose comme
clickUrl ="http://www.example.com/idocs-nph/search/pdfViewerForm.html?args=5C7QrtC22wGYK2xFpSwMnXdtvSoClrL8xJKSjjboeVQpCCmqt4mgGEHlbmahCJFQEmRQwePEviF8EeCoaT0MAKztT3Sb63xk3VkL3PiCQ3RLoVYQqjKiogfu8Gq1RKKQmyoZK8o4WQM0kj-3nPY6gOqNXOY8VS4VhacAYKom_mBgul0xmRvgLA..";
sur un navigateur web, le téléchargement est effectué de retour html contenant un META refresh
<meta http-equiv="REFRESH" content="0;url=http://www.example.com/idocs-nph/search/pdfViewerForm.html?args=5C7QrtC22wGYK2xFpSwMnXdtvSoClrL8xJKSjjboeVQpCCmqt4mgGEHlbmahCJFQEmRQwePEviF8EeCoaT0MAKztT3Sb63xk3VkL3PiCQ3TmKpPQrAvPZQfu8Gq1RKKQmyoZK8o4WQMl05IxFu8XBzuJ49RIAPXJ8d-HneKenBQ-TKbP_e17qQ.."/>
et le navigateur demande un nom de fichier enregistrer le fichier
Sur mon numéro de crawler,
ouvrir un WebRequest au CLICKURL,
HttpWebRequest req = (HttpWebRequest)WebRequest.Create(clickUrl);
Je perçois et suivre l'URL REFRESH en utilisant une nouvelle WebRequest, mais la réponse est un nouveau html contenant également métadonnée refresh, non pas le fichier (assez récursive)
HttpWebRequest ne contient pas de cookies