J'ai une tâche pour télécharger des Gbs de données à partir d'un site Web. Les données sont sous la forme de fichiers .gz, chaque fichier ayant une taille de 45mb.wget Vs urlretrieve de python
Le moyen le plus simple d'obtenir les fichiers est d'utiliser "wget -r -np -A files url". Cela va télécharger les données dans un format récursif et reflète le site Web. Le taux de téléchargement est très élevé 4mb/sec. Mais, juste pour jouer, j'utilisais aussi python pour construire mon urlparser.
Le téléchargement via urlretrieve de Python est damm lent, possible 4 fois plus lent que wget. Le taux de téléchargement est 500kb/sec. J'utilise HTMLParser pour analyser les tags href.
Je ne sais pas pourquoi cela se produit. Y a-t-il des paramètres pour cela?
Merci
Avez-vous essayé de comparer l'utilisation du processeur et la sortie de tcpdump? –
qu'est-ce que tcpdump? Comment l'obtenir? –
Je voudrais ignorer les vitesses de transfert (mégaoctets/Mo et mégabits/Mb sont complètement différents!) Et de comparer les deux en utilisant les commandes «temps wget http: // example.com/fichier» et «temps python urlretrieve_downloader.py» – dbr