2010-10-03 20 views
2

Je cherche une base de données qui pourrait m'aider à regrouper des milliers de mots-clés en anglais dans quelques disciplines générales.Base de données taxonomie open source à usage général

Par exemple:

I HAVE THIS => I WANT TO HAVE THIS
cat => animal
chair => household
wine => drink
deer => animal
beer => drink
glass => household, drink
total 50 000 keywords => total <100 disciplines

Je suppose que l'organisation de mots-clés dans les disciplines peut être très difficile. Je ne me soucie pas vraiment de savoir quelles seront les disciplines. Je veux seulement que mes 50 000 mots-clés soient regroupés dans moins de 100 disciplines.

Connaissez-vous une base de données de dictionnaire qui peut faire cela?

+1

Un des drapeaux devrait être AI ou base de connaissances ou systèmes experts –

Répondre

1

En termes d'associer les mots-clés avec les entrées du dictionnaire:

  • Une méthode générale d'obtenir ce dont vous avez besoin serait de considérer cela comme un problème de classification multi-classe: http://en.wikipedia.org/wiki/Multiclass_classification
  • Une mise en œuvre qui Je crois que SVM Light devrait fonctionner pour votre besoin particulier. SVM Light: http://svmlight.joachims.org/svm_struct.html
  • Vous aurez toujours besoin de former le classificateur avec des données d'échantillon, bien sûr, vous aurez donc besoin d'avoir un ensemble d'entraînement représentatif.

En ce qui concerne l'organisation en fait les résultats dans une base de données, il semble relativement simple:

  • créer une table dictionnaire (avec les termes < 100)
  • créer une table de mots-clés, les clés étrangères à la table dictionnaire
  • la clé primaire naturelle (logique) de la table de mots clés serait (mot-clé, dictionary_table_id)