3

Je suis confronté à un problème sur la sélection du classificateur correct pour ma tâche d'exploration de données. Je suis l'étiquetage des pages Web en utilisant une méthode statistique et les étiqueter en utilisant une échelle de 1 à 4, 1 étant le plus pauvre et 4 étant le meilleur. Auparavant, j'ai utilisé SVM pour former le système car j'utilisais un label binaire (1,0). Mais maintenant que je passe à ce label de 4 classes, je dois changer de classificateur, parce que je pense que le SVM classifier ne fonctionnera que pour la classification à deux classes (Corrigez-moi si je me trompe).S'il vous plaît aidez-moi à choisir le bon classifieur

Alors pourriez-vous s'il vous plaît offrir quelques suggestions ici sur quel genre de classificateur est le plus approprié ici pour mon but de classification.

Merci d'avance pour vos suggestions.

Répondre

6

Il existe des SVM multi-classes. LibSVM a une implémentation, tout comme Weka.

Habituellement, il est préférable d'expérimenter avec plusieurs classificateurs pour savoir lequel fonctionne le mieux sur vos données. Le choix du type de classificateur et de l'algorithme d'apprentissage est lointain moins important que votre choix d'ensemble de fonctionnalités. Vous pouvez essayer Bayes naïf, SVM multi-classe, MaxEnt, voté perceptrons, ou tout ce que votre bibliothèque offre.

+0

Merci de savoir comment activer svm multi-classe dans Weka s'il vous plaît? J'ai joué avec lui pendant un certain temps, mais cela ne fonctionnait que pour les classes binaires. – Kevin

+0

Je n'utilise pas Weka moi-même, mais apparemment vous avez besoin soit de la classe 'weka.classifiers.functions.SMO', soit du plugin séparé WLSVM (http://www.cs.iastate.edu/~yasser/wlsvm/) –

+0

J'aimerais savoir quelle est la preuve derrière cette déclaration sur l'importance relative de l'ensemble de fonctionnalités par rapport au type d'algorithme. Je viens de me lancer dans un exemple où passer de naies baies à SVM a fait une grande différence. L'ensemble des fonctionnalités était exactement le même. Et si vous écoutez Norvig de Google, ce n'est pas important, seulement la taille de l'ensemble d'entraînement. – piccolbo

2

Vous parlez de "classification ordinale". Il peut être fait modifié using SVM (comme déjà mentionné, il est également mis en œuvre dans libSVM), en utilisant logistic regression, et même using decision trees, ou des réseaux de neurones artificiels.

Vous pouvez même poursuivre vos étiquettes, effectuer une analyse de régression de votre choix, puis décoder la sortie. La plupart des méthodes que j'ai mentionnées ci-dessus font cela dans les coulisses.

Bonne chance

1

Vous pouvez essayer de vérifier Andrew NG Conférence sur la façon de choisir l'algorithme ML qui bests vous convient, je pense, est très instructif, et il pourrait vous donner un aperçu sur la façon de gérer vos données