Je développe un script qui extrait les messages de l'archive des messages d'un groupe meetup.com particulier dont je suis membre - http://www.meetup.com/opencoffee/messages/archive/Catégorisation automatique de contenu
L'idée est d'ajouter dynamiquement à ces site wordpress et permettre aux gens de rechercher des messages, des messages d'étiquette automatique, etc.
Le problème que j'ai est de savoir comment catégoriser automatiquement ces messages. Je serais ravi d'avoir des idées et des idées sur la meilleure façon d'y parvenir et quelle serait la manière la plus efficace de programmer cela.
Option 1
Trouver une source de balises par domaine tels que la finance, la technologie, les affaires, etc. en utilisant l'API délicieux et trouver des tags liés par sujet: -
http://delicious.com/tag/finance
http://delicious.com/tag/technology
Si un message contient ces balises, le message est affecté à la catégorie correspondante.
Je crois que cela pourrait fonctionner, mais je ne suis pas sûr de la méthode la plus efficace de numériser le message pour ces étiquettes.
Option 2
sites Trouvez représentatifs des catégories dont j'ai besoin, comme ft.com, l'économiste des finances etc, etc pour la technologie TechCrunch et ensuite déterminer ce que les balises sont utilisées par les gens pour marquer ces sites et déterminez par défaut que ces tags correspondent à la manière dont les gens interagissent avec ces sites et leur pile de contenu.
Option 3
transmettre l'URL de message à http://semanticproxy.com/ (partie du projet Reuters Calais) ou utiliser l'API ouverte Calais. C'est ce que j'ai essayé mais sans grand succès car la profondeur variable du contenu n'est pas toujours suffisante pour renvoyer une taxonomie significative.
Voici un exemple de message que j'analysés et traités par l'calais api: -
Original Message
http://www.meetup.com/opencoffee/messages/6045615/
Calais Résultat
http://www.mashinteractive.com/opencoffee/calais.php
RÉSUMÉ
Donc c'est à peu près tout. J'aimerais avoir des idées et des idées sur la méthodologie et des conseils sur la meilleure façon d'aborder la numérisation des messages pour les options 1 et 2.
Il y a environ 1 700 messages à ce jour et je suppose que je peux avoir 10 catégories avec chacune la catégorie étant définie par 20 ou 30 étiquettes.
Si quelqu'un voudrait aider à développer un plugin Wordpress ou une classe pour ce faire, je serais plus qu'heureux de vous avoir à bord. Gardez à l'esprit que je ne suis pas un programmeur, je me contente de bricoler et de faire semblant d'en être un.
Merci à l'avance
PDG Jonathan
Foule Personnes