2010-12-13 39 views
3

Les robots des moteurs de recherche explorent le Web et téléchargent chaque page qu'ils consultent, non?Comment téléchargez-vous un site web?

Comment téléchargent-ils exactement une page? De quelle façon conservent-ils les pages?

Je demande parce que je veux exécuter une analyse sur quelques pages Web. Je pourrais gratter la page en allant à l'adresse mais cela n'aurait-il pas plus de sens de télécharger les pages sur mon ordinateur et de les travailler à partir de là?

+1

Il est utile de se familiariser avec la façon dont les pages Web fonctionnent réellement. Votre navigateur affiche une page Web en envoyant une requête HTTP à un serveur, qui répond en renvoyant le code HTML du site Web à votre ordinateur. Tout langage de programmation pouvant envoyer des requêtes HTTP peut être utilisé pour recevoir des données HTML. –

+0

En tant que problème général, ce n'est pas trivial. Un véritable robot d'indexation Web doit analyser des pages dynamiques et un script, dans la plupart des cas, il affiche la page complète avant que les liens puissent être récupérés. Il peut y avoir des redirections permanentes ou temporaires, des liens uniques basés sur l'identifiant de session, CSS, etc., etc. L'outil approprié dépend de la nature et de la complexité des pages concernées. Si vous voulez juste refléter des pages plates, voyez les suggestions ci-dessous. Tu veux plus que ça? Cela dépend des pages en question. –

Répondre

8

wget --mirror

+0

Merci. Exactement ce que je cherche. En regardant ça, il semble que Python a ses propres versions. –

7

Essayez HTTrack

A propos de la façon dont ils le font:
L'indexation commence à partir d'un point de départ désigné (une entrée si vous préférez). De là, l'araignée suit récursivement tous les hyperliens jusqu'à une profondeur donnée.

Les moteurs de recherche fonctionnent également comme this, mais il y a beaucoup de crawling simultanément et il y a d'autres facteurs qui comptent. Par exemple, un message nouvellement créé dans SO sera récupéré par google très rapidement, mais une mise à jour sur un site web à faible trafic sera prise en charge même quelques jours plus tard.

+0

Comment Google enregistre-t-il les modifications dans les pages dynamiques aussi rapidement? Garder un œil sur le flux RSS d'un site semble être une bonne idée. Comment les lecteurs RSS réagissent-ils instantanément aux changements d'un flux RSS? –

+1

@GreenRails, les sites dynamiques publient leurs modifications avec PubSubHubbub, et Google s'y abonne. Par exemple, mon blog Wordpress utilise PubSubHubbub, et les modifications apparaissent sur Google Reader et d'autres flux RSS plus rapidement que je ne peux actualiser la page. –

2

Vous pouvez utiliser les outils de débogage intégrés dans Firefox (ou firebug) et Chrome pour examiner le fonctionnement de la page. En ce qui concerne le téléchargement direct, je ne suis pas sûr. Vous pourriez peut-être essayer de visualiser la source de la page dans votre navigateur, puis copier et coller le code.