la recherche d'une base de données de n-grammes prélevés wikipedia

Je suis en train efficace pour résoudre le même problème que cette question:la recherche d'une base de données de n-grammes prélevés wikipedia

moins l'exigence que les mots représentent des objets physiques. Les réponses et la question éditée semblent indiquer qu'un bon début est la construction d'une liste de fréquence de n-grammes utilisant le texte de wikipedia comme corpus. Avant de commencer à télécharger le fichier mammoth wikipedia, quelqu'un sait-il si une telle liste existe déjà?

PS si l'affiche originale de la question précédente voit, j'aimerais savoir comment vous avez résolu le problème, que vos résultats semblent excellents :-)

Source

2010-02-24 mojones

Google as a publicly available base de données téraoctet n-garam (jusqu'à 5).
Vous pouvez commander 6 DVDs ou trouver un torrent qui l'héberge.

Source

2010-02-24 10:34:21

Oui, j'ai considéré cet ensemble de données - encore plus terrifiant que les dumps wikipedia! – mojones

Il n'est pas disponible pour un usage commercial – Joel

Quelqu'un at-il trouvé un torrent de celui-ci? – placeybordeaux

la recherche d'une base de données de n-grammes prélevés wikipedia

Répondre

Questions connexes