Je suis en train efficace pour résoudre le même problème que cette question:la recherche d'une base de données de n-grammes prélevés wikipedia
Finding related words (specifically physical objects) to a specific word
moins l'exigence que les mots représentent des objets physiques. Les réponses et la question éditée semblent indiquer qu'un bon début est la construction d'une liste de fréquence de n-grammes utilisant le texte de wikipedia comme corpus. Avant de commencer à télécharger le fichier mammoth wikipedia, quelqu'un sait-il si une telle liste existe déjà?
PS si l'affiche originale de la question précédente voit, j'aimerais savoir comment vous avez résolu le problème, que vos résultats semblent excellents :-)
Oui, j'ai considéré cet ensemble de données - encore plus terrifiant que les dumps wikipedia! – mojones
Il n'est pas disponible pour un usage commercial – Joel
Quelqu'un at-il trouvé un torrent de celui-ci? – placeybordeaux