2010-02-24 13 views
6

Je suis en train efficace pour résoudre le même problème que cette question:la recherche d'une base de données de n-grammes prélevés wikipedia

Finding related words (specifically physical objects) to a specific word

moins l'exigence que les mots représentent des objets physiques. Les réponses et la question éditée semblent indiquer qu'un bon début est la construction d'une liste de fréquence de n-grammes utilisant le texte de wikipedia comme corpus. Avant de commencer à télécharger le fichier mammoth wikipedia, quelqu'un sait-il si une telle liste existe déjà?

PS si l'affiche originale de la question précédente voit, j'aimerais savoir comment vous avez résolu le problème, que vos résultats semblent excellents :-)

Répondre

1

Google as a publicly available base de données téraoctet n-garam (jusqu'à 5).
Vous pouvez commander 6 DVDs ou trouver un torrent qui l'héberge.

+0

Oui, j'ai considéré cet ensemble de données - encore plus terrifiant que les dumps wikipedia! – mojones

+3

Il n'est pas disponible pour un usage commercial – Joel

+0

Quelqu'un at-il trouvé un torrent de celui-ci? – placeybordeaux