Pour un projet de recherche, je collecte des tweets en utilisant Python-Twitter. Cependant, lorsque nous exécutons notre programme sans escale sur un seul ordinateur pendant une semaine, nous ne collectons que 20 Mo de données par semaine. Je ne fais tourner ce programme que sur une machine afin de ne pas collecter deux fois les mêmes tweets.Comment collecter des tweets plus rapidement en utilisant l'API Twitter en Python?
Notre programme exécute une boucle qui appelle getPublicTimeline() toutes les 60 secondes. J'ai essayé d'améliorer cela en appelant getUserTimeline() sur certains des utilisateurs apparus dans le calendrier public. Cependant, cela m'a toujours empêché de collecter des tweets pendant environ une demi-heure à chaque fois. Même sans l'interdiction, il semblait qu'il y avait très peu de rapidité en ajoutant ce code.
Je connais la «liste blanche» de Twitter qui permet à un utilisateur de soumettre plus de demandes par heure. J'ai postulé pour cela il y a environ trois semaines, et je n'ai plus de nouvelles depuis, alors je cherche des alternatives qui permettront à notre programme de collecter des tweets plus efficacement sans dépasser la limite de taux standard. Est-ce que quelqu'un sait d'une manière plus rapide de recueillir des tweets publics de Twitter? Nous aimerions obtenir environ 100 Mo par semaine.
Merci.
ancien post, mais pour les personnes qui trébuchent ici: getPublicTimeline() n'est pas dans l'API Twitter actuelle ni le code python-twitter, mais il obtient probablement la chronologie de l'utilisateur qui a été authentifié - je suppose que c'est la raison pour le petit nombre de tweets. Je ne pense pas que vous pouvez faire une requête ouverte avec l'API REST, mais avec l'API de streaming vous pouvez (donne je pense .1% de la firehose - beaucoup pour obtenir des concerts de données dans quelques jours) – drevicko