2010-08-27 7 views

Répondre

3

Assurez-vous? Vous pouvez demander poliment avec robots.txt (mais ils peuvent être ignorés), vous pouvez coller des barrières avec CAPTCHA (mais ils peuvent être vaincus et imposer une barrière aux utilisateurs ordinaires), et vous pouvez surveiller le comportement de chaque visiteur à la recherche de modèles de robots (mais les robots peuvent proxy proxy et taux limite).

1

Vous pouvez placer un fichier robots.txt avec le contenu suivant à la racine de votre site qui empêchera les robots civilisés de l'indexer:

User-agent: * 
Disallow:/

Notez que cela n'empêchera pas les robots non civilisés de l'indexer . La seule façon de les empêcher est d'utiliser des techniques telles que Captcha.

Bien sûr, il est préférable d'utiliser une machine de développement dédié qui n'est pas accessible depuis Internet alors que votre site est en construction.

0

Utilisez robots.txt pour diriger ou autoriser/interdire les robots d'indexer votre site Web.

+0

Notez que 'robots.txt' peut être ignoré par les robots d'exploration, comme l'ont mentionné David et Darin. –

1

Vous pouvez également refuser l'accès en fonction des crawlers user agent, bien sûr cela suppose que le crawler utilise un agent utilisateur différent d'un navigateur normal.

+0

Les "mauvais" robots peuvent toujours truquer l'agent utilisateur, donc c'est aussi une des méthodes qui peuvent aider, mais les interdire – Laimoncijus