2009-01-16 4 views
21

J'ai besoin de la liste de mots anglais la plus complète que je puisse trouver pour plusieurs types de traitements de langage, mais je n'ai rien trouvé sur Internet qui ait une qualité suffisante.Mots en anglais naturels

Il y a 1 000 000 de mots en anglais incluant des mots étrangers et/ou techniques.

Pouvez-vous suggérer une telle source (ou près de 500 000 mots) qui peut être téléchargée sur Internet, peut-être un peu catégorisée? Quelle entrée utilisez-vous pour vos applications de traitement de la langue?

+1

Si votre dictionnaire a 1 million de mots, vous pouvez parier que les fautes d'orthographe de mots communs vont être confondus avec un mot obscur de 1-in-a-million. Cela pourrait affecter l'utilité d'un tel dictionnaire. –

+0

@Germstorm: où avez-vous obtenu ce numéro de 1 million? Avez-vous une référence spécifique, ou cette rumeur? –

+0

Je viens de l'entendre quelque part, je ne peux pas le valider – Germstorm

Répondre

25

Kevin's wordlists est le meilleur que je connais juste pour les listes de mots.

WordNet est meilleur si vous voulez savoir sur les choses étant noms, verbes, etc, synonymes, etc.

+0

J'ai déjà utilisé les listes de Kevin. J'ai fusionné un tas d'entre eux pour obtenir une liste énorme afin que je puisse générer tous les mots possibles à partir d'un ensemble donné de caractères. – dotjoe

+0

@dotjoe ils ont une belle [interface web] (http://app.aspell.net/create) maintenant qui va le faire pour vous (: – drevicko

3

Qui vous a dit qu'il y avait 1 million de mots? Selon le Wikipedia, l'Oxford English Dictionary n'en a que 600 000. Et l'OED essaie d'inclure tous les termes techniques et d'argot utilisés.

+1

Quelle est une puissance de deux entre amis? – zaratustra

+0

L'anglais est un langage synthétique.J'ai aussi entendu le numéro 1M, généralement en tant que limite inférieure du nombre de mots que vous pouvez créer à la volée. – rmeador

4

J'ai fait de la recherche pour Purdue sur le traitement des connaissances en anglais contrôlé et en langage naturel.

Je voudrais jeter un oeil au projet de tentative: http://attempto.ifi.uzh.ch/site/description/ qui est un projet pour aider à construire un anglais naturel contrôlé.

Vous pouvez télécharger le lexique de tous les mots au: http://attempto.ifi.uzh.ch/site/downloads/files/clex-6.0-080806.zip il a environ 100 000 mots anglais naturels.

Vous pouvez également fournir votre propre lexique pour des mots spécifiques au domaine, c'est ce que nous avons fait dans notre recherche. Ils offrent des services web pour analyser et mettre en forme un texte anglais naturel.

0

Il n'y a pas trop de mots de base (171k selon this- oxford Ce qui est ce que je me souviens avoir dit dans mon programme CS au collège mais si toutes les formes de mots- il augmente considérablement.

cela dit, pourquoi ne pas faire un vous-même? Obtenir un Wikipedia et vidage parser et créer un ensemble de tous les jetons que vous rencontrez.

Attendez-vous à des fautes d'orthographe cependant, comme toutes les choses c rowd-sources il y aura des erreurs.