2009-07-14 17 views
3

J'ai cherché un bon moyen d'implémenter ceci. Je travaille sur un simple crawler de site Web qui ira autour d'un ensemble spécifique de sites Web et explorera tous les liens mp3 dans la base de données. Je ne veux pas télécharger les fichiers, il suffit d'explorer le lien, de les indexer et de pouvoir les rechercher. Jusqu'à présent, pour certains des sites, j'ai réussi, mais pour certains, ils utilisent des redirections d'URL et des trucs qui confond le crawler ..MP3 link Crawler

des idées? Comment beemp3.com indexe-t-il tous ces liens?

grâce

Répondre

1

Vous pouvez faire une demande d'en-tête HTTP aux liens et vérifier leur type MIME. Si c'est audio/mpeg, vous allez chercher un lien mp3.

0

Here's quelque chose de similaire à votre demande (les amis au collège l'utilisent tout le temps). Lors de l'entrée de QUERY_TEXT Cette recherche génère une requête Google au format suivant:

QUERY_TEXT intitle: 
"index.of" "parent directory" "size" "last modified" "description" 
[snd] (mp4|mp3|avi) 
-inurl:(jsp|php|html|aspx|htm|cf|shtml|lyrics|mp3s|mp3|index) 
-gallery 
-intitle:"last modified" 
-intitle:(intitle|mp3) 
+0

cela ne recherchera pas les mp3, mais uniquement les pages contenant la liste des répertoires, y compris les fichiers mp3. –

+0

ouais et ce n'est pas vraiment rampant non plus .. je veux voir si un script peut faire le tour et indexer X nombre de sites uniquement pour les fichiers mp3. Merci pour la réponse si :) –

0

Quels langages de programmation préférez-vous?

Python:
Il existe un cadre de rampement très prometteur appelé Scrapy (écrit en python) qui est construit similaire à la Django Framework. Je ne l'ai pas encore utilisé mais j'ai regardé des robots et Scrapy est le meilleur candidat. Il n'est pas prêt à l'emploi et nécessite un minimum de codage, mais il est conçu autour du principe DRY et est très personnalisable (un peu comme si Django ne vous donnait pas de site Web clé en main juste après l'installation).

Il existe de nombreuses méthodes différentes pour URL redirection et votre robot d'exploration doit être en mesure de suivre ces redirections OU dans le pire des cas, être en mesure de les ignorer pour ne pas provoquer de dysfonctionnement.

Le site qui est redirigé vers doit également être dans la liste blanche de vos sites.

Pourriez-vous éditer votre question et ajouter des détails sur votre robot d'exploration; Est-il écrit à partir de zéro, est-ce une solution clé en main, etc?