2009-10-29 5 views
0

Je suis en train d'explorer des données à partir d'Internet, sans les classer.Y a-t-il une bibliothèque de classeurs bien connue?

Y a-t-il une telle bibliothèque à recommander?

EDIT

Je rampants emploi d'autres sites, et je dois les regrouper dans différentes industries.

+0

Si vous souhaitez les regrouper, vous avez besoin de clustering et non de classification. – michaeltwofish

Répondre

0

Mon employeur actuel a mis au point un système de catégorisation des pages Web. Il n'y avait pas de bibliothèques utiles que nous puissions trouver donc nous devions faire les nôtres. Nous n'autorisons pas les nôtres.

Je peux vous donner quelques conseils. Les analyseurs de spam classent les e-mails dans Junk ou Not Junk. Vous pouvez utiliser les mêmes outils tels que Bayesian, CRM-114, etc. pour faire vos propres classifications sur n'importe quel texte, y compris les pages Web.

Vous devrez regarder les résultats de ceux-ci très attentivement et leur donner un lot de la rétroaction humaine. Vous pouvez souvent trouver des ensembles de mots clés qui vont très bien marquer pour vous. Trouver ces ensembles de mots-clés prendra du temps et des efforts et cela changera avec le temps.

Vous devrez écrire du code pour diviser les pages Web en sections thématiques car la plupart des pages ne sont pas toutes une chose. Il y a des cadres publicitaires, de la navigation et d'autres choses.

1

Pour trier des données non étiquetées dans des groupes, vous souhaitez une classification, pas une classification. La bibliothèque d'apprentissage automatique la plus complète est la base Java Weka. Vous souhaiterez probablement commencer par extraire le texte des pages Web (supprimer complètement les éléments de script et de style, supprimer les autres balises), puis exécuter le texte via le filtre StringToWordVector avant d'effectuer la mise en cluster.