2008-12-05 25 views
4

Notre équipe de référencement aimerait ouvrir notre page de résultats de recherche dynamique principale aux araignées et supprimer le 'nofollow' des balises meta. Il est actuellement accessible aux araignées en autorisant le chemin dans robots.txt, mais avec une clause 'nofollow' dans la balise meta qui empêche les araignées d'aller au-delà de la première page.Est-il possible d'empêcher les robots des moteurs de recherche d'explorer à l'infini les liens de radiomessagerie dans les résultats de recherche?

<meta name="robots" content="index,nofollow">

Je crains que si nous enlevons le « nofollow », l'impact sur notre système de recherche sera catastrophique, comme les araignées commenceront à ramper à travers toutes les pages du jeu de résultats. J'apprécierais des conseils quant à:

1) Est-il possible de supprimer le 'nofollow' de la balise meta, mais empêcher les araignées de suivre seulement certains liens sur la page? J'ai lu des opinions mitigées sur rel = "nofollow", est-ce une option viable?

<a rel="nofollow" href="http://www.mysite.com/paginglink" >Next Page</a>

2) Y at-il un moyen de contrôler la « profondeur » de savoir jusqu'où ira les araignées? Ce ne serait pas si mal s'ils frappaient quelques pages, puis s'arrêtaient.

3) Nos pages de résultats de recherche ont les liens standard suivant/précédent, ce qui en théorie amènerait les araignées à frapper des pages récursivement à l'infini, quel en est l'effet sur le référencement? Je comprends que les différentes araignées se comportent différemment, mais je suis principalement concerné par les gros joueurs, tels que Google, Yahoo, MSN. Les pages de résultats de recherche et les liens de pagination ne sont pas adaptés aux robots, en ce sens qu'ils ne sont pas réécrits et ont une chaîne de requête? Name = value, mais d'après ce que j'ai vu, les araignées n'abandonnent plus quand ils voient le '?' comme les pages de résultats sont indexées avec un rang de page décent.

Répondre

2

Pour être honnête, vous regardez nofollow mauvais. Les chances sont les araignées de recherche sont déjà particulièrement Google, Yahoo, et MSN recherchant les pages nofollow, parce qu'ils doivent encore frapper ces pages pour voir s'ils ont un noindex.

Le vrai problème est nofollow ne signifie pas réellement ne suivent pas, cela signifie juste ne passent pas sur ma réputation à ce lien. Donc, sauf si vous bloquez agressivement les bots, ce qui ne vous semble pas être le cas, changer la balise META ROBOTS et les commandes du robot sur les liens n'affectera pas les performances, car ils touchent déjà votre site. Pour confirmer cela, il suffit de regarder votre journal HTTP Server.

Donc, mon vote est que vous ne verrez aucun problème avec la suppression des limites du robot.

1

Les robots Google sont assez intelligents pour ne pas traverser toute une base de données générées dynamiquement, à condition que les URL donnent une indication qu'ils sont dynamiques (extension de fichier .asp ou .jsp, etc.) et numériques comme paramètres de requête). Si vous utilisez des règles de réécriture pour rendre vos URL "conviviales", les bots ont plus de difficulté à déterminer s'il s'agit d'une page statique qu'ils lisent ou d'une page générée dynamiquement. Voir this Google article pour plus d'informations sur les URL dynamiques et statiques.

Vous pouvez également envisager de créer un Google Sitemap pour donner aux bots une meilleure idée des pages de votre site qui peuvent être indexées et celles qui ne le peuvent pas.

2

J'ai vu Google indexer un système de calendrier qui avait des liens relatifs sur chaque page jusqu'à la fin des temps (19 janvier 2038 - voir: http://en.wikipedia.org/wiki/Year_2038_problem). On n'a pas remarqué la charge sur nos serveurs jusqu'à ce qu'il expose un bogue dans le code source traitant de dates en 2038.

Je ne sais pas sur les autres moteurs de recherche, mais Google propose un certain nombre d'outils utiles pour contrôler combien googlebot affecte votre infrastructure de serveur. Voir http://www.google.com/webmasters/.

Il existe une option dans les outils pour les webmasters pour définir le taux d'exploration de votre site.