2010-08-03 19 views

Répondre

3
  • http://www.dmoz.org est une bonne graine. Comme indiqué précédemment, pour orienter une exploration, l'interrogation d'un moteur de recherche donne de bons résultats .
1

Les résultats d'un autre moteur de recherche pour des mots-clés du domaine de problème que vous essayez d'explorer peut-être?

1

IMO peu importe - tant que ces URLs pointent vers différentes parties du web, vous pouvez être raisonnablement sûr que votre crawler explorera la plupart des pages non sombres (c'est-à-dire liées à) sur le Web, plus tôt ou plus tard (probablement plus tard, compte tenu de la taille du Web).

Je suggère la page d'accueil de certains sites, qui a de nombreux liens menant à de nombreux endroits différents sur le web (indice de conseil), et à partir de là. Le problème que vous aurez ne sera pas un manque de liens, où que vous commenciez - au contraire, vous aurez exactement le contraire et aurez besoin de mettre en œuvre un algorithme pour garder la trace de l'endroit où vous avez été, où vous devriez aller ensuite, et comment éviter les boucles semi-infinies et infinies.

+0

Merci pour votre réponse. Je sais qu'il va explorer ces pages tôt ou tard, mais c'est bon si j'ai une grande partie des pages explorées à l'avance. Comment est-ce, si j'ai une liste de texte de tous les domaines enregistrés et les index pour la plupart. Pouvez-vous me suggérer un lien d'où je peux obtenir une liste mise à jour des domaines enregistrés. Je sais: http://www.who.is/whois_index/index.php –

+0

Whoa ... c'est une grande liste. Eh bien, je dirais que c'est un très bon point de départ. (Je ne sais pas à quel point c'est à jour) – Piskvor

+0

Ouais c'est une très grosse liste, de toute façon merci pour votre temps –