Comment faites-vous pour classer en fonction du contenu du texte?

Comment trouver automatiquement les catégories de texte en fonction du contenu?Comment faites-vous pour classer en fonction du contenu du texte?

Source

2008-09-15 Anonymous

La publication originale n'a pas précisé si l'auteur avait déjà des catégories, et voulait classer, ou s'ils ne l'avaient pas, et avait besoin de les découvrir. –

Il y a un bon document écrit à ce sujet: http://www.cs.utexas.edu/users/hyukcho/classificationAlgorithm.html

Source

2008-09-15 18:38:01 GEOCHET

Le lien est maintenant mort :( – Tessmore

La meilleure façon de classer le contenu, que ce soit du texte ou multimédia est d'utiliser un taxonomy. La plupart des CMS bien connus ont pris en charge la taxonomie. Drupal a l'un des meilleurs support pour taxonomy parmi les différents CMS là-bas.

Source

2008-09-15 18:53:07 Jahangir

Je ne pense pas que j'appellerais cela le meilleur moyen. Je l'appellerais * un moyen *. –

Lire Data Mining: Practical Machine Learning Tools and Techniques - Ian H. Witten, Eibe Frank
Utilisez Weka ou Orange

Source

2008-12-31 18:17:23

Je vous encourage à regarder les bibliothèques de classification texte fournis avec le Natural Language Toolkit . Même si vous n'êtes pas familier avec Python, je pense que vous trouverez l'API plutôt intuitive. Il y a beaucoup de bons exemples dans le NLTK Book et les personnes sur la liste de diffusion sont également très utiles.

Source

2009-07-01 12:42:19 theycallmemorty

La manière la plus simple de faire une catégorisation de texte est d'utiliser la représentation bag-of-words. Les mots/n-grammes de mots dans chaque document pourraient être utilisés comme caractéristiques. Avec ceci, vous pouvez représenter chaque document comme un vecteur dans l'espace métrique. Par la suite, vous pouvez appliquer clustering pour grouper des documents similaires en termes de contenu. Par exemple, vous pouvez utiliser le clustering k-means avec ces vecteurs pour regrouper des documents lexicaux similaires.

L'atelier d'exploration de texte basé sur Python, NTLK est excellent pour expérimenter des tâches de ce type rapidement (en général, python est très bon pour travailler avec du texte). Vous pourriez le trouver utile.

Source

2014-04-26 18:52:40

Comment faites-vous pour classer en fonction du contenu du texte?

Répondre

Questions connexes