J'ai besoin de créer un programme de collecte de contenu qui lira simplement des nombres sur des pages Web spécifiées, et sauvegardera ces données pour analyse plus tard. Je n'en ai pas besoin pour rechercher des liens ou des données connexes, il suffit de rassembler toutes les données des sites Web qui auront un contenu changeant tous les jours. J'ai très peu d'expérience en programmation, et j'espère que ce sera bon pour l'apprentissage. La vitesse n'est pas un gros problème, j'estime que le crawler devrait tout au plus charger 4 000 pages par jour.Quel est le langage de programmation idéal pour un robot d'exploration Web?
Merci. Editer: Y at-il un moyen de tester à l'avance si les sites Web à partir de laquelle je rassemble des données sont protégés contre les robots d'indexation?
que les robots d'indexation ne respectent pas le protocole d'exclusion des robots - et les clients sont tenus de respecter les conditions d'utilisation de tout site Web. –
Je suis d'accord avec vous. – alamar
La plupart des choses sur le web font apparaître Java pour la programmation des robots. Est-ce que java est trop compliqué? ou quel est le problème avec ça? – Alex