2010-07-13 12 views
0

Ma structure d'URL est mis en place dans deux parallèles (deux mènent au même endroit):Définition des variables dans le fichier robots.txt

  • www.example.com/subname
  • www.example.com/123

Le problème est que est, les araignées rampent dans des choses comme:

  • www.example.com/subname/default_media_function
  • www.example.com/subname/map_function

Notez que le nom « subname » représente des milliers de pages sur mon site que tous ont la même fonction.

Et ils jettent des erreurs parce que ces liens sont strictement à des fins JSON ou AJAX et non des liens réels. Je voudrais les empêcher d'accéder à ces pages, mais comment le ferais-je si l'URL contient une variable?

Cela fonctionnerait-il dans le fichier robots.txt?

Disallow: /map_function 
+0

Celui-ci fonctionne sûrement Disallow:/map_function/ –

+0

Pourquoi avez-vous écrit cela comme une réponse? Je vous donnerai le crédit si c'est vrai: D – Trip

Répondre

2

Vous allez devoir faire

Disallow: /subname/map_function 

Les robots chercher le robots.txt au niveau des racines. Là aussi, ils évaluent les URL de gauche à droite sans caractères génériques. Par conséquent, vous devrez soit créer un emplacement pour toutes les fonctions map_function et les exclure, soit exclure tous les emplacements.

+0

Est-il courant que les gens produisent des scripts de robots dynamiquement? Parce que var 'subname' représente des milliers de pages différentes ayant chacune la même fonction. Je suis juste inquiet de faire un énorme robot.txt – Trip

+0

Je ne pense pas que vous aurez besoin de trop vous soucier de la taille. Votre meilleur pari est de trouver un moyen de mettre tous les éléments dans un seul répertoire, puis exclure le répertoire ... Disallow:/subname/restrict/ ou quelque chose comme ça, il vous permettra d'économiser sur le robot.txt . Cependant, vous pouvez également le faire dynamiquement comment il est créé n'a pas d'importance pour le bot. –

+0

donc c'est un problème mod_rewrite je le prends. Vous pourriez envisager d'utiliser # pour spécifier vos paramètres jquery l'incorpore. Je pense que les robots ne feraient pas attention aux ancres –