Je fais un petit robot pour explorer quelques sites Web. Maintenant, je suis juste le tester en ce moment et j'ai essayé 2 types de paramètres:Bot trop agressif?
environ 10 demandes toutes les 3 secondes - l'IP a été banni, alors j'ai dit - ok, c'est trop rapide.
2 requêtes toutes les 3 secondes - l'adresse IP est bannie après 30 minutes et plus de 1000 liens sont explorés.
Est-ce encore trop rapide? Je veux dire que nous parlons de près de 1.000.000 liens si je reçois le message que "nous ne voulons tout simplement pas être crawlé?" ou est-ce encore trop vite?
Merci.
Modifier
Essayé à nouveau - 2 requêtes toutes les 5 secondes - 30 minutes et 550 liens plus tard, je me suis interdit.
J'irai avec 1 demande toutes les 2 secondes mais je soupçonne la même chose arrivera. Je suppose que je devrais contacter un administrateur - si je peux le trouver.
Combien de pages avez-vous tirées avant d'être banni? Avez-vous demandé et honoré 'robots.txt'? Qu'avez-vous mis dans votre en-tête 'User-Agent'? – benzado
Je n'ai pas demandé le fichier robots.txt :) mais je l'ai d'abord vérifié dans mon navigateur. Environ 1000+ pages, je ne suis pas sûr. Et non, je n'ai pas encore de set User-Agent. Ce sera probablement ma prochaine étape. – sirrocco
Avez-vous essayé de contacter les administrateurs pour le site que vous essayez d'explorer? Vous pourriez être en mesure de travailler avec eux, surtout s'ils vous interdisaient seulement parce qu'ils soupçonnaient une activité néfaste (par exemple un spammeur essayant de récolter des adresses e-mail). – ZoogieZork