2010-09-03 22 views
2

J'essaie d'utiliser la modélisation de sujet avec Mallet mais j'ai une question.Modélisation de sujet à l'aide d'un maillet

Comment puis-je savoir quand j'ai besoin de reconstruire le modèle? Par exemple, j'ai cette quantité de documents que j'ai explorés sur le web, en utilisant la modélisation de sujets fournie par Mallet, je pourrais être en mesure de créer les modèles et d'en déduire des documents. Mais avec le temps, avec de nouvelles données que j'ai explorées, de nouveaux sujets peuvent apparaître. Dans ce cas, comment puis-je savoir si je devrais reconstruire le modèle du début à la fin?

Je pensais le faire pour les documents que j'ai explorés chaque mois. Quelqu'un peut-il conseiller? Par conséquent, la modélisation de sujet est-elle plus adaptée au texte sous une quantité fixe de sujets (le paramètre d'entrée k, le numéro de sujet). Si non, comment puis-je vraiment déterminer quel numéro utiliser?

Répondre

3

Les réponses à vos questions dépendent en grande partie du type de données que vous utilisez et de la taille du corpus. En ce qui concerne la fréquence, je crains que vous n'ayez qu'à estimer la fréquence à laquelle vos données changent de façon significative et que vous les remodelez à ce rythme. Vous pouvez commencer avec une semaine et voir si les nouvelles données conduisent à un modèle significativement différent. Sinon, essayez deux semaines et ainsi de suite.

Le nombre de sujets que vous sélectionnez est déterminé par ce que vous recherchez dans le modèle. Plus le nombre est élevé, plus les résultats sont précis. Si vous voulez un large aperçu de ce qu'il y a dans votre corpus, vous pouvez sélectionner 10 sujets. Pour regarder de plus près, vous pouvez utiliser 200 ou un autre nombre suffisamment élevé.

J'espère que cela aide.