Comment trouver automatiquement les catégories de texte en fonction du contenu?Comment faites-vous pour classer en fonction du contenu du texte?
Répondre
Il y a un bon document écrit à ce sujet: http://www.cs.utexas.edu/users/hyukcho/classificationAlgorithm.html
Le lien est maintenant mort :( – Tessmore
La meilleure façon de classer le contenu, que ce soit du texte ou multimédia est d'utiliser un taxonomy. La plupart des CMS bien connus ont pris en charge la taxonomie. Drupal a l'un des meilleurs support pour taxonomy parmi les différents CMS là-bas.
Je ne pense pas que j'appellerais cela le meilleur moyen. Je l'appellerais * un moyen *. –
- Lire Data Mining: Practical Machine Learning Tools and Techniques - Ian H. Witten, Eibe Frank
- Utilisez Weka ou Orange
Je vous encourage à regarder les bibliothèques de classification texte fournis avec le Natural Language Toolkit . Même si vous n'êtes pas familier avec Python, je pense que vous trouverez l'API plutôt intuitive. Il y a beaucoup de bons exemples dans le NLTK Book et les personnes sur la liste de diffusion sont également très utiles.
La manière la plus simple de faire une catégorisation de texte est d'utiliser la représentation bag-of-words. Les mots/n-grammes de mots dans chaque document pourraient être utilisés comme caractéristiques. Avec ceci, vous pouvez représenter chaque document comme un vecteur dans l'espace métrique. Par la suite, vous pouvez appliquer clustering pour grouper des documents similaires en termes de contenu. Par exemple, vous pouvez utiliser le clustering k-means avec ces vecteurs pour regrouper des documents lexicaux similaires.
L'atelier d'exploration de texte basé sur Python, NTLK est excellent pour expérimenter des tâches de ce type rapidement (en général, python est très bon pour travailler avec du texte). Vous pourriez le trouver utile.
La publication originale n'a pas précisé si l'auteur avait déjà des catégories, et voulait classer, ou s'ils ne l'avaient pas, et avait besoin de les découvrir. –