2010-04-20 16 views
-1

Nous utilisons un grattoir Web et l'avons mis en place pour avoir une fonction de sommeil qui a une fonction aléatoire (de sorte que ce n'est pas le même temps entre chaque éraflure), mais nous sommes toujours bloqués de Yahoo après 20- 30 demandesYahoo Web Scrapes: Quelles sont les limites?

Est-ce que quelqu'un sait s'il y a une limite (c'est-à-dire: 20 demandes par minutes, 200 par heure) En ce moment, notre moyenne entre chaque demande est d'environ 3-6 secondes. Merci pour toute aide

+0

Donc, pour être clair, vous nous demandez comment violer les conditions d'utilisation de Yahoo et ne pas se faire prendre? – Aaronaught

+0

oui ... c'est exactement ce que je demande. – bvandrunen

+0

Si un tuyau Yahoo a été utilisé dans le cadre de la gratte, cela a une limite de seulement 200 demandes par IP toutes les 10 minutes {OU 200 demandes par tuyau individuel en dix minutes} – Skizz

Répondre

0

Donc la réponse est 5000 requêtes. Tiré de

http://forums.digitalpoint.com/showthread.php?t=736784

http: // développeur. yahoo. com/search/rate.html

+0

Cette limite de taux est pour leurs services Web. Grattage de leurs résultats n'est pas autorisé, période; ils ne vont pas documenter la limite pour cela, mais rassurez-vous, c'est beaucoup moins que 5000 fois. – Aaronaught

0

1 demande toutes les 3-6 secondes est assez faible, donc il y a peut-être un autre problème avec votre crawler.

Quelques idées:

  • définir l'utilisateur-agent à quelque chose non suspect
  • mettre l'en-tête Referer au même domaine
  • essayez d'exécuter votre robot à partir d'une adresse IP différente dans le cas où votre actuelle IP est mis à l'index
  • essayages maintenant les cookies

tout cela sera plus facile si vous utilisez un niveau plus élevé libra comme Mechanize.

+0

Merci pour vos suggestions ... Je sais que dans le Auparavant, nous avons utilisé un logiciel qui a randomisé nos adresses IP ... et cela a semblé fonctionner. – bvandrunen

+0

peut être utile de tester les adresses IP pour essayer d'isoler le problème. Essayez également de ralentir le taux de demandes pour voir si cela vous permet d'obtenir plus de 30 demandes. Si vous utilisez plusieurs IP, vous pouvez vous permettre de ralentir le taux de demandes en explorant en parallèle. – hoju