À la suite d'un lien vers la première page de votre site, les principaux robots d'exploration moteur de recherche demandera tout d'abord un fichier appelé robots.txt qui bien sûr dit le robot de recherche les pages il est permis par le propriétaire du site à visiter et quels fichiers ou répertoires sont hors limites.
Et si vous n'avez pas de robots.txt? Presque toujours, le robot "interprète" ceci pour signifier qu'aucune pages/répertoires ne sont hors limites et il continuera à explorer votre site entier. Alors, pourquoi inclure un fichier robots.txt si c'est ce que vous voulez, c'est-à-dire que le robot d'indexation doit indexer tout votre site? Parce que si c'est là, le Crawler le demandera presque toujours pour qu'il puisse le lire - cette requête apparaît bien sûr comme une ligne dans votre fichier journal d'accès au serveur, qui est une signature assez forte pour un Crawler. Ensuite, un bon analyseur de journal d'accès au serveur, tel que Webalyzer ou Awstats. Comparer les adresses des agents et des adresses IP par rapport aux listes publiées et faisant autorité: IAB (http://www.iab.net/sites/spiders/login.php) et user-agents.org publient les deux listes qui semblent les plus utilisées à cette fin. Le premier est quelques milliers de dollars par an et plus; ce dernier est gratuit. Webalyzer et AWStats peuvent faire ce que vous voulez, bien que je recommande AWStats pour les raisons suivantes: il a été mis à jour assez récemment (il y a environ un an) alors que Webalyzer a été mis à jour il y a plus de huit ans. En outre, AWStats a des modèles de rapports beaucoup plus agréables. L'avantage de Webalyzer est qu'il est beaucoup plus rapide.
est ici un exemple de sortie de AWStats (basé sur config hors-the-box) qui est probablement ce que vous cherchez:

Merci pour votre réponse détaillée. Je suis plus intéressé à simplement faire en sorte que notre site soit entièrement exploré par les principaux moteurs de recherche. À cette fin, j'ai vraiment besoin d'un outil qui me dit combien de pages uniques sont explorées dans les zones de notre site par des moteurs de recherche particuliers. Est-ce que webalyzer peut faire ça? –
excuses pour la réponse tardive - je viens de voir votre commentaire. La réponse aux questions dans votre commentaire ci-dessus est «oui». J'ai considérablement révisé ma réponse à la lumière de votre commentaire - voir ma réponse révisée qui montre une partie d'un exemple de rapport de Search Engine Spiders d'AWStats – doug