2010-04-15 6 views
1

En raison de certaines considérations architecturales plutôt bizarres, j'ai dû mettre en place quelque chose qui devrait vraiment fonctionner comme une application de console en tant que page Web. Il fait le travail d'écrire une grande variété de fichiers texte et de flux xml à partir de nos données de site pour divers autres services à ramasser si évidemment il faut un peu de temps pour exécuter et est assez gourmand en processeur.Inquiet que les araignées frappent à plusieurs reprises la page à forte demande

Cependant, avant de le déployer, je suis plutôt inquiet qu'il pourrait être frappé à plusieurs reprises par des araignées et autres. C'est très bien pour les données à réécrire, mais les appels continus sur cette page vont déclencher des problèmes de performance pour des raisons évidentes.

Est-ce quelque chose dont je devrais m'inquiéter? Ou en réalité le trafic d'araignée est-il improbable d'être suffisamment intense pour causer des problèmes?

Répondre

1

Vous pouvez dire aux grands de ne pas vous spider; www.robotstxt.org.

Vous pouvez également implémenter une forme de critère d'authentification/adresse IP qui empêcherait son exécution.

0

Vous devez exiger une authentification pour la page.

Même si vous l'excluez dans robots.txt, il n'y a aucune garantie que les araignées le respecteront. S'il s'agit d'une page coûteuse susceptible d'avoir une incidence sur la disponibilité du site, placez-la derrière une passerelle d'authentification.

1

Vous pourriez être surpris du nombre d'araignées disponibles.

Vous devez utiliser robots.txt pour les exclure.

Si vous craignez que les robots puissent ignorer robots.txt (et certains le feront inévitablement), pourquoi ne pas demander un POST plutôt qu'un GET pour déclencher le script? Cela devrait exclure toutes les araignées.