2010-06-05 20 views
0

Je dois télécharger tous les fichiers PDF d'un certain domaine. Il y a environ 6000 pdf sur ce domaine et la plupart d'entre eux n'ont pas de lien html (soit ils ont supprimé le lien, soit ils n'en ont jamais mis un en premier lieu).Obtention de tous les fichiers PDF à partir d'un domaine (par exemple * .adomain.com)

Je sais qu'il ya environ 6000 fichiers parce que je suis googler: filetype: pdf. Site: * adomain.com

Cependant, Google ne liste que les 1000 premiers résultats. Je crois qu'il y a deux façons d'y parvenir:

a) Utilisez Google. Cependant, comment puis-je obtenir tous les 6000 résultats de Google? Peut-être un grattoir? (essayé scroogle, pas de chance) b) Sauter Google et chercher directement sur le domaine pour les fichiers pdf. Comment puis-je faire quand la plupart d'entre eux ne sont pas liés?

Répondre

0

Si les liens vers les fichiers ont été supprimés et que vous n'avez pas l'autorisation de lister les répertoires, il est pratiquement impossible de savoir derrière quelle URL il existe un fichier pdf.

Vous pouvez jeter un oeil à http://www.archive.org et rechercher un état antérieur de la page si vous croyez qu'il y a eu des liens vers les fichiers dans le passé.

Pour récupérer tous les fichiers PDF mentionnés sur le site de manière récursive, je recommande wget. Des exemples à http://www.gnu.org/software/wget/manual/html_node/Advanced-Usage.html#Advanced-Usage

Vous souhaitez télécharger tous les gifs à partir d'un répertoire sur un serveur http. Vous avez essayé 'wget http://www.server.com/dir/ * .gif', mais cela n'a pas fonctionné car la récupération http ne prend pas en charge la globalisation. Dans ce cas, utilisez:

 wget -r -l1 --no-parent -A.gif http://www.server.com/dir/ 

Plus de commentaires, mais l'effet est le même. '-r -l1' signifie récupérer récursivement (voir le téléchargement récursif), avec une profondeur maximale de 1. '--no-parent' signifie que les références au répertoire parent sont ignorées (voir Limites basées sur l'annuaire), et '-A .gif 'signifie de télécharger uniquement les fichiers gif. '-A "* .gif"' aurait aussi fonctionné.

(Il suffit de remplacer .gif avec .pdf!)

+0

+1 Merci !!! Je vais essayer cela –

+0

Comment * tout * système peut-il connaître tous les sous-domaines qui sont autorisés pour un domaine particulier? – Gareth