2

Google がホームページ ( https://www.google.com )で行うのと同様に、ユーザーが話しているときに中間結果を返す音声認識 API を探しています。フランス語をサポートする API を探しています。私がやりたいことは、Google 音声検索と同様に機能する Web アプリケーションを作成することです。

  • Google Speech API は頻繁に変更され、完全に文書化されていないため、専門的な開発にはお勧めできません。
  • IBM Watson はフランス語をサポートしていません
  • AT&T Speech API が中間結果を返さない
  • CMU Sphinx は信じられないほど悪い結果を返します (ここでデモを参照してください: http://syl22-00.github.io/pocketsphinx.js/live-demo.html )
  • ニュアンスの製品は Web アプリケーション用に作られていないようです。(それらを使用するために何をすべきか知っているなら、私は興味があります!)
4

2 に答える 2

2

Cortana と Skype Translator で使用されるMicrosoft のProject Oxford Speech Recognition APIは、両方の基準を満たしています。フランス語 (および他の 6 つの言語) をサポートし、オーディオをストリーミングすると、部分的/暫定的/オンライン仮説を返します。

(余談ですが、Pocketsphinx でオンライン認識を行うときにひどい精度を引き起こす通常の問題は、悪い CMN (ケプストラム平均正規化) です。処理する音声の完全な部分を Pocketsphinx に与えると、発話全体の CMN が計算されますが、デフォルトでは CMN を計算しません. 1 つの解決策は, 完全な発話を与え, pocketphinx によって計算された CMN を取得してから, その CMN をストリーミング オーディオに使用することです. CMN はオーディオ チャネル/環境ごとに異なることに注意してください. 、そして pocketphinx への Python インターフェースは CMN データへのインターフェースを提供していません.これがあなたが調査したいルートである場合、私はパッチを持っています.)

于 2015-10-10T23:40:11.617 に答える
1

多くの音声テキスト変換アプリケーションは、Nuance Communications が開発した音声認識技術を使用しています。Web アプリケーションでうまく機能する SDK は、ストリーミング オーディオのテキストへの変換をサポートするサーバー SDKです。英語、ドイツ語に加えてフランス語にも対応。これを使用するには、AJAX リクエストを介してオーディオ入力をサーバーにストリーミングし、そこで処理する必要があります。次に、テキストを AJAX リクエストから XMLHTTPResponse として受け入れます。

于 2015-10-10T16:37:24.820 に答える