2010-08-04 11 views
1

Je voudrais obtenir toutes les URLs vers un site vers (sur le même domaine) sans télécharger tout le contenu avec quelque chose comme wget. Existe-t-il un moyen de dire à wget de lister simplement les liens qu'il DEVRAIT télécharger? Pour un petit contexte de ce que j'utilise pour si quelqu'un peut trouver une meilleure solution: J'essaye de construire un fichier robots.txt qui exclut tous les fichiers qui se terminent par p [4-9] .html mais robots.txt ne supporte pas les expressions régulières. Donc j'essaye d'obtenir tous les liens et ensuite exécute une expression régulière contre eux puis mets le résultat dans le fichier robots.txt. Des idées?Comment puis-je regrouper tous les liens sur un site sans contenu?

+0

Comment pouvez-vous obtenir les liens sans obtenir le contenu? Est-ce que l'ajout de 'nofollow' aux liens aiderait? Exemple ici: http://www.seoconsultants.com/html/links/nofollow – slugster

+0

Je sais que je dois passer en revue le contenu, mais je ne veux pas qu'il soit sauvegardé une fois que c'est fait. Malheureusement, je ne peux pas ajouter nofollow car la plupart du site utilise une application tierce que je ne peux pas toucher. – Luke

Répondre