Est-ce que quelqu'un connaît quelques outils open source pour analyser les pages html, filtrer les annonces, JS et etc pour obtenir le titre, le texte. La partie avant de mon application est basée sur LAMP. J'ai donc besoin d'analyser les pages html et de les stocker dans Mysql. Et peupler les premières pages avec ces données.Analyser les pages html et stocker le contenu (titre, texte et etc) dans la base de données
Je connais quelques outils: Heritrix, Nutch. Mais il semble qu'ils sont des robots.
Merci. Joseph
Pas une question de programmation? Peut-être que cela appartient à superuser.com? – zigdon
Pourquoi ne pensez-vous pas avoir besoin d'un robot? – David
@David, j'ai besoin de crawler pour obtenir les pages html. Je pense qu'il y a trois étapes. 1.Crawle page Web. 2. Analyser les pages 3 Stocker les données dans la base de données. Donc, je veux savoir s'il existe des outils pour mettre en œuvre 2 et 3 étapes? – Joseph