Comment puis-je regrouper tous les liens sur un site sans contenu?

Je voudrais obtenir toutes les URLs vers un site vers (sur le même domaine) sans télécharger tout le contenu avec quelque chose comme wget. Existe-t-il un moyen de dire à wget de lister simplement les liens qu'il DEVRAIT télécharger? Pour un petit contexte de ce que j'utilise pour si quelqu'un peut trouver une meilleure solution: J'essaye de construire un fichier robots.txt qui exclut tous les fichiers qui se terminent par p [4-9] .html mais robots.txt ne supporte pas les expressions régulières. Donc j'essaye d'obtenir tous les liens et ensuite exécute une expression régulière contre eux puis mets le résultat dans le fichier robots.txt. Des idées?Comment puis-je regrouper tous les liens sur un site sans contenu?

Source

2010-08-04 Luke

Comment pouvez-vous obtenir les liens sans obtenir le contenu? Est-ce que l'ajout de 'nofollow' aux liens aiderait? Exemple ici: http://www.seoconsultants.com/html/links/nofollow – slugster

Je sais que je dois passer en revue le contenu, mais je ne veux pas qu'il soit sauvegardé une fois que c'est fait. Malheureusement, je ne peux pas ajouter nofollow car la plupart du site utilise une application tierce que je ne peux pas toucher. – Luke

Ma recommandation: combiner wget et gawk dans un (très) petit script shell.

Il y a un bon aperçu de AWK sur wikipedia: http://en.wikipedia.org/wiki/AWK

Source

2010-08-04 13:19:38 Nick

Comment puis-je regrouper tous les liens sur un site sans contenu?

Répondre

Questions connexes