Je veux une liste d'URL à partir de laquelle mon robot d'exploration peut commencer à explorer efficacement afin qu'il puisse couvrir une partie maximale du Web. Avez-vous d'autres idées pour créer un index initial pour un hôte différent? MerciQuelle devrait être la liste initiale des URL pour qu'un robot d'exploration commence son travail?
Quelle devrait être la liste initiale des URL pour qu'un robot d'exploration commence son travail?
Répondre
- http://www.dmoz.org est une bonne graine. Comme indiqué précédemment, pour orienter une exploration, l'interrogation d'un moteur de recherche donne de bons résultats .
Les résultats d'un autre moteur de recherche pour des mots-clés du domaine de problème que vous essayez d'explorer peut-être?
IMO peu importe - tant que ces URLs pointent vers différentes parties du web, vous pouvez être raisonnablement sûr que votre crawler explorera la plupart des pages non sombres (c'est-à-dire liées à) sur le Web, plus tôt ou plus tard (probablement plus tard, compte tenu de la taille du Web).
Je suggère la page d'accueil de certains sites, qui a de nombreux liens menant à de nombreux endroits différents sur le web (indice de conseil), et à partir de là. Le problème que vous aurez ne sera pas un manque de liens, où que vous commenciez - au contraire, vous aurez exactement le contraire et aurez besoin de mettre en œuvre un algorithme pour garder la trace de l'endroit où vous avez été, où vous devriez aller ensuite, et comment éviter les boucles semi-infinies et infinies.
Merci pour votre réponse. Je sais qu'il va explorer ces pages tôt ou tard, mais c'est bon si j'ai une grande partie des pages explorées à l'avance. Comment est-ce, si j'ai une liste de texte de tous les domaines enregistrés et les index pour la plupart. Pouvez-vous me suggérer un lien d'où je peux obtenir une liste mise à jour des domaines enregistrés. Je sais: http://www.who.is/whois_index/index.php –
Whoa ... c'est une grande liste. Eh bien, je dirais que c'est un très bon point de départ. (Je ne sais pas à quel point c'est à jour) – Piskvor
Ouais c'est une très grosse liste, de toute façon merci pour votre temps –