2010-01-31 20 views
1

y at-il une bibliothèque pour ruby ​​ou php qui est capable d'analyser les pages html et d'extraire des données uniques en les comparant avec d'autres pages similaires .... devrait utiliser une sorte de text mining pour identifier quels textes sont plus probables tandis que d'autres textes sont plus uniques et utiles ...extraire des données utiles à partir de pages html arbitraires?

Répondre

2

Je suis un gars de PHP, aucune idée à propos de Ruby, mais je pense que ce que vous voulez est trivial à l'archive:

  • Utilisez quelque chose comme Simple HTML DOM pour analyser les pages.
  • Pour chaque page, comparez tous les éléments DOM.
  • Obtenez le chemin de tous les éléments qui ont un contenu différent, ceux-ci seront vos signal éléments.