2010-11-10 17 views
11

Je dois transcrire automatiquement certains courts MP3 dans le cadre d'une validation de principe sur laquelle je travaille. Je suis actuellement à la recherche de solutions cloud ou de services API Web pour envoyer le MP3 sous la forme d'une simple requête HTTP et recevoir une retranscription. La seule solution libre/open source que j'ai trouvée est here, mais les démos ne semblent pas fonctionner (du moins pas sur les fichiers que j'ai besoin de transcrire). J'ai trouvé des solutions d'entreprise pour les centres d'appels, mais jusqu'à présent rien que je peux simplement intégrer dans un projet.API de reconnaissance de la parole

Existe-t-il des services de reconnaissance vocale sur le Web? Celui qui est capable de filtrer le petit bruit serait un plus.

+0

Voir aussi cette question: http://stackoverflow.com/questions/3113864/server-side-voice-recognition –

Répondre

1

This peut être un bon match. En outre, leur profil techcrunch (See this) répertorie les concurrents comme: SimulScribe, SpinVox, Vlingo, Nuance, Microsoft, Google Certains de ces liens peuvent être utiles.

Vlingo, Bing et Google ont des outils de reconnaissance dans le cloud, mais je ne pense pas qu'ils les rendent publiquement programmables. Je crois qu'ils sont accessibles uniquement à partir de leurs clients autorisés.

Pour une preuve de concept (et un faible volume), avez-vous envisagé d'utiliser uniquement les moteurs de discours de bureau fournis avec Windows 7? What is the difference between System.Speech.Recognition and Microsoft.Speech.Recognition? peut être utile. Les systèmes de reconnaissance de bureau MS sont livrés avec une grammaire de dictée et il semble que ce soit ce dont vous aurez besoin.

+0

Yapme, et quelques autres services que j'ai trouvés après avoir posté, s'adressent à de grands clients. Je les ai envoyés par e-mail (ce qui est le seul moyen d'obtenir des informations sur l'API, la tarification ou l'accès), mais je n'ai pas reçu de réponse. les concurrents listés fournissent des solutions de centre d'appels, comme je l'ai mentionné dans mon post. Je n'ai pas regardé dans les moteurs de discours de Microsoft, parce que mon projet dépend de moi pouvoir écrire ceci, et je travaille en PHP/Python sur un serveur de Linux. Je pourrais faire quelques tests de base en l'utilisant, mais j'aurais besoin d'une solution différente. – MrGlass

+0

-1 Pour le moment, il semble que yapme.com ait été abandonné. –

+2

En fait, ils abandonnent leur service de transcription de messagerie vocale, mais on ne sait pas ce qui se passe avec leurs API de reconnaissance de cloud. Ils semblent avoir été achetés par Amazon et donc les gens spéculent sur le fait qu'Amazon pourrait ajouter leurs services de reco aux services Cloud d'Amazones - http://www.theatlantic.com/technology/archive/2011/11/i-see-your-siri -et-soulève-toi-a-yap-amazon-tranquillement-snaps-up-speech-recognition-startup/248165/(tu te rends compte que mon post tu dis "-1" a plus d'un an ...) –

1

Vous pouvez également essayer le moteur de reconnaissance vocale de Windows 7 pour produire des sous-titres. Here est l'outil pour cela.

+0

Comment ce lien est-il lié à la reconnaissance vocale? – matteo

+0

Cet outil open source utilise un moteur de reconnaissance vocale de Windows pour analyser un fichier .wav et en extraire un fichier de sous-titres. – VahidN

+0

C'est drôle que la liste des fonctionnalités ne mentionne même pas une fonctionnalité aussi puissante. – matteo

5

Voici an unofficial method pour accéder à la fonctionnalité Google ASR. Je viens de tester hier et ça marche toujours - vous pouvez obtenir une sortie ASR de style JSON avec des mots et un score de confiance associé à partir d'un audio FLC échantillonné en 16KHz.

+0

C'est une trouvaille vraiment cool. Y a-t-il des informations sur une limite de taux? – MrGlass

+0

Veuillez convertir vos fichiers audio à 16K Hz FLAC. Puisque ce n'est pas une solution officielle de Google, il y a beaucoup d'inconnues :) – Leo5188

+3

Vérifié, cette méthode ne fonctionne plus. Cependant, Google en a publié la version V2, nécessitant une clé API, et avec un quota, ce qui est très bas.Une implémentation peut être trouvée ici: https://github.com/gillesdemey/google-speech-v2 –