2010-11-11 27 views
0

J'ai un site Web qui est assez bon mais avec très moins d'informations. Donc je me sentais comme ajoutant des informations comme des nouvelles concernant le secteur particulier (par exemple, la politique, hollywood etc). Je crois que les robots sont la meilleure approche pour le faire? Si ma compréhension est correcte, veuillez suggérer si vous avez un autre moyen d'obtenir de l'information sans utiliser des robots d'exploration provenant de diverses sources. Deuxièmement, je fais des recherches au cours des 2 derniers jours et je ne trouve pas de source particulière capable de le faire. Maintenant, je veux que les robots d'exploration trouvent des informations, normalisent et stockent dans la base de données mysql. Ça a l'air assez simple ha. Mais ce n'est pas pour moi.Suggestion avec les meilleurs crawlers et grattoirs personnalisables

Comme cela demande beaucoup de ressources et de temps. Quelles sont les choses que je devrais prendre en considération avant de choisir un robot. Aussi je souhaite le personnaliser pour que tout outil open source et bon à customiser soit génial.

Toute source fournissant des informations et des recherches sur les facteurs doit être prise en compte lors de la création de robots d'exploration ou de l'éducation sur les robots. Je préfère coder en Java mais je peux coder dans n'importe quelle autre langue au cas où vous pensez avoir un langage. J'espère avoir donné assez d'informations. S'il vous plaît n'hésitez pas si vous avez besoin de plus d'informations pour donner une suggestion.

Répondre

0

Vous pouvez utiliser httrack pour copier un site Web cible. Il y a un plugin firefox aussi appelé spiderzilla. Mais, ils vont juste enregistrer les pages.

Si vous souhaitez analyser les données dans les pages, vous pouvez utiliser simple_html_dom et stocker les informations dans mySQL.

0

Essayez l'outil GNU Wget. Vous pouvez ajouter beaucoup d'intelligence à la façon dont il explore et crée des vidages de données de pages Web. Il est open-source et personnalisable aussi, et très rapide aussi.