Mon employeur actuel a mis au point un système de catégorisation des pages Web. Il n'y avait pas de bibliothèques utiles que nous puissions trouver donc nous devions faire les nôtres. Nous n'autorisons pas les nôtres.
Je peux vous donner quelques conseils. Les analyseurs de spam classent les e-mails dans Junk ou Not Junk. Vous pouvez utiliser les mêmes outils tels que Bayesian, CRM-114, etc. pour faire vos propres classifications sur n'importe quel texte, y compris les pages Web.
Vous devrez regarder les résultats de ceux-ci très attentivement et leur donner un lot de la rétroaction humaine. Vous pouvez souvent trouver des ensembles de mots clés qui vont très bien marquer pour vous. Trouver ces ensembles de mots-clés prendra du temps et des efforts et cela changera avec le temps.
Vous devrez écrire du code pour diviser les pages Web en sections thématiques car la plupart des pages ne sont pas toutes une chose. Il y a des cadres publicitaires, de la navigation et d'autres choses.
Si vous souhaitez les regrouper, vous avez besoin de clustering et non de classification. – michaeltwofish