speech-recognition - 中間結果を返す Google 以外の音声認識 API はありますか?

Question

Google がホームページ ( https://www.google.com )で行うのと同様に、ユーザーが話しているときに中間結果を返す音声認識 API を探しています。フランス語をサポートする API を探しています。私がやりたいことは、Google 音声検索と同様に機能する Web アプリケーションを作成することです。

Google Speech API は頻繁に変更され、完全に文書化されていないため、専門的な開発にはお勧めできません。
IBM Watson はフランス語をサポートしていません
AT&T Speech API が中間結果を返さない
CMU Sphinx は信じられないほど悪い結果を返します (ここでデモを参照してください: http://syl22-00.github.io/pocketsphinx.js/live-demo.html )
ニュアンスの製品は Web アプリケーション用に作られていないようです。（それらを使用するために何をすべきか知っているなら、私は興味があります！）

score 2 · Accepted Answer

Cortana と Skype Translator で使用されるMicrosoft のProject Oxford Speech Recognition APIは、両方の基準を満たしています。フランス語 (および他の 6 つの言語) をサポートし、オーディオをストリーミングすると、部分的/暫定的/オンライン仮説を返します。

(余談ですが、Pocketsphinx でオンライン認識を行うときにひどい精度を引き起こす通常の問題は、悪い CMN (ケプストラム平均正規化) です。処理する音声の完全な部分を Pocketsphinx に与えると、発話全体の CMN が計算されますが、デフォルトでは CMN を計算しません. 1 つの解決策は, 完全な発話を与え, pocketphinx によって計算された CMN を取得してから, その CMN をストリーミングオーディオに使用することです. CMN はオーディオチャネル/環境ごとに異なることに注意してください. 、そして pocketphinx への Python インターフェースは CMN データへのインターフェースを提供していません.これがあなたが調査したいルートである場合、私はパッチを持っています.)

score 1 · Accepted Answer

多くの音声テキスト変換アプリケーションは、Nuance Communications が開発した音声認識技術を使用しています。Web アプリケーションでうまく機能する SDK は、ストリーミングオーディオのテキストへの変換をサポートするサーバー SDKです。英語、ドイツ語に加えてフランス語にも対応。これを使用するには、AJAX リクエストを介してオーディオ入力をサーバーにストリーミングし、そこで処理する必要があります。次に、テキストを AJAX リクエストから XMLHTTPResponse として受け入れます。

speech-recognition - 中間結果を返す Google 以外の音声認識 API はありますか?

2 に答える 2

Related

Reference