2010-09-16 25 views
1

Est-ce que quelqu'un connaît quelques outils open source pour analyser les pages html, filtrer les annonces, JS et etc pour obtenir le titre, le texte. La partie avant de mon application est basée sur LAMP. J'ai donc besoin d'analyser les pages html et de les stocker dans Mysql. Et peupler les premières pages avec ces données.Analyser les pages html et stocker le contenu (titre, texte et etc) dans la base de données

Je connais quelques outils: Heritrix, Nutch. Mais il semble qu'ils sont des robots.

Merci. Joseph

+0

Pas une question de programmation? Peut-être que cela appartient à superuser.com? – zigdon

+0

Pourquoi ne pensez-vous pas avoir besoin d'un robot? – David

+0

@David, j'ai besoin de crawler pour obtenir les pages html. Je pense qu'il y a trois étapes. 1.Crawle page Web. 2. Analyser les pages 3 Stocker les données dans la base de données. Donc, je veux savoir s'il existe des outils pour mettre en œuvre 2 et 3 étapes? – Joseph

Répondre

0

Cela dépend de ce que vous entendez par "texte" de la page Web. J'ai fait une chose similaire en saisissant une page Web en utilisant les bibliothèques apache HttpClient, puis dom4j pour rechercher une balise particulière pour extraire le texte. Mais vous avez en effet besoin du même type de robot que les moteurs de recherche comme google. Vous émulez les étapes de base qu'ils effectuent lorsqu'ils explorent un site Web. Extraire l'information Il serait utile que vous ayez un peu plus de détails sur le type d'information que vous voulez récupérer dans les pages.

+0

Informations utiles. Par exemple: Pour une page de nouvelles, je veux obtenir le contenu des nouvelles principales de la page html. – Joseph