2010-01-15 6 views
4

Je fais un petit robot pour explorer quelques sites Web. Maintenant, je suis juste le tester en ce moment et j'ai essayé 2 types de paramètres:Bot trop agressif?

  1. environ 10 demandes toutes les 3 secondes - l'IP a été banni, alors j'ai dit - ok, c'est trop rapide.

  2. 2 requêtes toutes les 3 secondes - l'adresse IP est bannie après 30 minutes et plus de 1000 liens sont explorés.

Est-ce encore trop rapide? Je veux dire que nous parlons de près de 1.000.000 liens si je reçois le message que "nous ne voulons tout simplement pas être crawlé?" ou est-ce encore trop vite?

Merci.

Modifier

Essayé à nouveau - 2 requêtes toutes les 5 secondes - 30 minutes et 550 liens plus tard, je me suis interdit.

J'irai avec 1 demande toutes les 2 secondes mais je soupçonne la même chose arrivera. Je suppose que je devrais contacter un administrateur - si je peux le trouver.

+4

Combien de pages avez-vous tirées avant d'être banni? Avez-vous demandé et honoré 'robots.txt'? Qu'avez-vous mis dans votre en-tête 'User-Agent'? – benzado

+0

Je n'ai pas demandé le fichier robots.txt :) mais je l'ai d'abord vérifié dans mon navigateur. Environ 1000+ pages, je ne suis pas sûr. Et non, je n'ai pas encore de set User-Agent. Ce sera probablement ma prochaine étape. – sirrocco

+0

Avez-vous essayé de contacter les administrateurs pour le site que vous essayez d'explorer? Vous pourriez être en mesure de travailler avec eux, surtout s'ils vous interdisaient seulement parce qu'ils soupçonnaient une activité néfaste (par exemple un spammeur essayant de récolter des adresses e-mail). – ZoogieZork

Répondre

8

Voici quelques guidelinesforwebcrawlerpoliteness.

Typiquement, si une page prend x nombre de secondes à télécharger, il est poli d'attendre au moins 10x-15x avant de retélécharger.

Assurez-vous également d'honorer également le fichier robots.txt.

0

Oui. C'est trop rapide.

Généralement, les robots d'exploration maintiennent un taux de 1 requêtes par minute.

Honnêtement C'est un faible taux d'exploration. Mais après quelques minutes, vous pouvez avoir une file d'URL (une longue liste :)). Vous pouvez faire pivoter cette liste jusqu'au prochain tour de l'URL.

Si vous avez la possibilité d'avoir une sorte d'architecture distribuée (plusieurs nœuds avec des connexions réseau différentes, même des HyperV ou des VM), vous pouvez penser à une vitesse plus élevée. Les différents hôtes de la grille peuvent saisir le contenu plus efficacement.

+0

1 minute? putain, c'est extrêmement lent - j'aurai fini par ... l'année prochaine? – sirrocco

+0

Oui .. Mais encore une fois, je peux voir un comportement différent avec les navigateurs hors ligne. Comme winhttrack. Ils sont trop agressifs mais je ne peux pas imaginer la différence. –

0

L'une des meilleures considérations à prendre en compte est les propriétaires du site. Comme d'autres l'ont mentionné, le fichier robots.txt est la norme pour que le site fasse cela.

En résumé, vous disposez de 3 méthodes dans le fichier robots.txt qui sont utilisées pour limiter la vitesse de requête.

Crawl-delay: #, un nombre entier qui représente la quantité en secondes à attendre entre les demandes.

Taux de demande: #/#, le numérateur représentant combien de pages et le dénominateur représentant combien par seconde. c'est-à-dire 1/3 = 1 page toutes les 3 secondes.

Heure de visite: #### - ####, deux nombres à 4 chiffres séparés par un tiret qui représentent l'heure (HH: MM GMT) à laquelle vous devez explorer leur site.Compte tenu de ces suggestions/demandes, vous trouverez peut-être que certains sites n'ont aucun de ces sites dans leur fichier robots.txt, dans lequel il est sous votre contrôle. Je suggère de le garder à un taux raisonnable à un minimum d'une page par seconde tout en limitant le nombre de pages que vous consommez par jour.