Je dois télécharger tous les fichiers PDF d'un certain domaine. Il y a environ 6000 pdf sur ce domaine et la plupart d'entre eux n'ont pas de lien html (soit ils ont supprimé le lien, soit ils n'en ont jamais mis un en premier lieu).Obtention de tous les fichiers PDF à partir d'un domaine (par exemple * .adomain.com)
Je sais qu'il ya environ 6000 fichiers parce que je suis googler: filetype: pdf. Site: * adomain.com
Cependant, Google ne liste que les 1000 premiers résultats. Je crois qu'il y a deux façons d'y parvenir:
a) Utilisez Google. Cependant, comment puis-je obtenir tous les 6000 résultats de Google? Peut-être un grattoir? (essayé scroogle, pas de chance) b) Sauter Google et chercher directement sur le domaine pour les fichiers pdf. Comment puis-je faire quand la plupart d'entre eux ne sont pas liés?
+1 Merci !!! Je vais essayer cela –
Comment * tout * système peut-il connaître tous les sous-domaines qui sont autorisés pour un domaine particulier? – Gareth