j'ai obtenu la liste des robots d'exploration site Web suivant: http://www.karavadra.net/blog/2010/list-of-crawlers-bots-and-their-ip-addresses/#respondmoyen le plus rapide pour vérifier la liste des adresses IP via crawler contient en Java
Si vous connaissez une meilleure liste des adresses IP qui mettent à jour régulièrement s'il vous plaît laissez-moi savoir.
Maintenant, je crée l'objet:
private static final HashSet<String> list = new HashSet<String>(){{
add("66.249.71.248");
add("66.249.66.38");
add("66.249.65.142"); // 331 more entires
}};
Et je vérifie la liste par cette méthode:
public static boolean isCrawler(String ip){
return list.contains(ip);
}
S'il vous plaît conseiller sur la façon d'améliorer ce pour être plus rapide et une solution plus élégante. J'utilise le printemps, donc les haricots sont aussi une option.
Je voudrais intégrer le service de mise à jour sur la liste mais je n'ai pas trouvé de liste IP téléchargeable qui serait utile et l'analyse de sites Web via Jsoup n'est jamais une solution idéale.
Pourquoi faites-vous cela? – thejh
Comment ajouter des attributs nofollow aux liens vers le tracker et regarder les chaînes UA? – thejh