Les robots des moteurs de recherche explorent le Web et téléchargent chaque page qu'ils consultent, non?Comment téléchargez-vous un site web?
Comment téléchargent-ils exactement une page? De quelle façon conservent-ils les pages?
Je demande parce que je veux exécuter une analyse sur quelques pages Web. Je pourrais gratter la page en allant à l'adresse mais cela n'aurait-il pas plus de sens de télécharger les pages sur mon ordinateur et de les travailler à partir de là?
Il est utile de se familiariser avec la façon dont les pages Web fonctionnent réellement. Votre navigateur affiche une page Web en envoyant une requête HTTP à un serveur, qui répond en renvoyant le code HTML du site Web à votre ordinateur. Tout langage de programmation pouvant envoyer des requêtes HTTP peut être utilisé pour recevoir des données HTML. –
En tant que problème général, ce n'est pas trivial. Un véritable robot d'indexation Web doit analyser des pages dynamiques et un script, dans la plupart des cas, il affiche la page complète avant que les liens puissent être récupérés. Il peut y avoir des redirections permanentes ou temporaires, des liens uniques basés sur l'identifiant de session, CSS, etc., etc. L'outil approprié dépend de la nature et de la complexité des pages concernées. Si vous voulez juste refléter des pages plates, voyez les suggestions ci-dessous. Tu veux plus que ça? Cela dépend des pages en question. –