2010-10-27 22 views
0

Je veux trouver des données de départ à charger dans mon dictionnaire. J'ai juste besoin de la représentation orthographique du mot (lettres) et de la définition.Données sur les semences pour un dictionnaire anglais américain

Je suis à la recherche d'un seul fichier texte qui contient cette information pour analyser, puis charger dans mon DB. J'utilise des rails, donc s'il y a une gemme ou un plugin qui peut faire cela, ce serait bien si quelqu'un le sait.

Répondre

4

Ici, vous allez:

http://www.gutenberg.org/ebooks/673

Il pourrait avoir plus informations que vous avez besoin, mais vous pouvez analyser ce que vous voulez. Le projet Gutenberg convertit les livres du domaine public (y compris les droits d'auteur expirés) au format texte.

+0

Je vais vérifier, fichier de 50 Mo :) – s84

1

Une telle base de données que je connais est WordNet, mais ce n'est pas seulement un fichier texte. Vous devriez analyser ce dont vous avez besoin dans le format que vous voulez.

Il y en a d'autres aussi. GCIDE est une base de données basée sur XML qui inclut non seulement des définitions de WordNet, mais aussi certaines de l'édition 1913 de Webster's Unvised Dictionary (le dernier domaine public aux États-Unis).

+0

le wordnet db est écrit en prologue, pas sûr comment prologue trouve réellement les mots. On dirait que les mots et les définitions sont convertis en nombres et prologue sait comment le lire, je ne suis pas sûr. – s84