Vous pouvez obtenir l'entrée parlée comme une chaîne avec l'attribut énoncé du dernier résultat (VoiceXML specification)
Cependant, ce n'est pas votre problème. Vous voulez une grammaire ouverte ou un système capable de gérer 100K entrées. C'est un artefact du moteur de reconnaissance, pas du langage VoiceXML. En théorie, vous pourriez construire une grammaire SRGS 100K. En pratique, c'est probablement beaucoup trop grand, si elles sont toutes des entrées uniques sans une façon plus claire de définir. Vous pouvez le faire avec des grammaires natives avec des moteurs comme Nuance avec une liste ou des entrées statiques ou un modèle de langage statistique composé de composants d'éléments (en supposant qu'ils partagent des composants communs).
Vous pouvez regarder les moteurs de dictée. Je ne pense pas avoir vu d'attachés aux plateformes VoiceXML car ils ne sont généralement pas bien alignés avec les cas d'utilisation VoiceXML normaux et la plupart des moteurs de dictée nécessitent une formation et des structures de phrases régulières pour identifier les entrées.