2009-08-09 6 views
1

J'ai commencé à travailler sur un projet dans lequel je dois étiqueter des documents avec des mots-clés, et il est vraiment difficile et fastidieux de le faire manuellement (surtout si vous avez des milliers de documents). J'ai donc l'intention d'automatiser le processus (sachant que le résultat ne serait pas parfait mais au moins il vous donne quelques balises suggérées). Dans la dernière version de Firefox, ils ont implémenté un système comme celui-ci (lorsque vous marquez une page dans un signet, il vous suggère des balises). Servicemarquage automatique de documents associés

yahoo term extraction est également un excellent exemple

Donc, si tout organisme peut me aider à contourner ce problème que je voudrais vraiment apprécier l'aide. Ou si quelqu'un connaît le système de marquage firefox, un peu d'aide serait génial.

Répondre

1

Un algorithme statistique fonctionnerait-il? Quelque chose de bayésien peut-être? Je sais qu'ils sont utilisés dans le filtrage anti-spam, peut-être pouvez-vous adapter un filtre Bayes à vos besoins. À tout le moins, vous pouvez suggérer des mots qui sont utilisés fréquemment mais ne sont pas des mots courants en anglais (il, elle, je, et, ça, alors, ou, etc ...)