1

HTML5's x-webkit-speechサーバー側で音声認識を実装する方法 ( javascript などを提案しないでください) ? プログラムはオーディオ ファイルを入力として受け取り、十分な精度でオーディオ ファイルのテキスト トランスクリプションを提供します。使用できるオプションは何ですか?

VoxforgeモデルでSphin4を実装しようとしましたが、精度が非常に悪いです(私の設定にも問題がある可能性があります.私はまだそれを学ぼうとしています). ある投稿で<input name="speech" id="speech" type="text" x-webkit-speech />、入力を使用すると外部サーバーに送信され、そのサーバーが認識を行い、データをブラウザーに送り返すことを読みました。

そのサーバーをどのようにセットアップできますか? 最小限のエラー率で英語の文章を認識できれば、既存のオープン ソース サーバーも役に立ちます。

4

3 に答える 3

3

どのタイプのアプリケーションを実装していますか? アプリケーションの目的は、ユーザーが話した入力をテキストに変換することですか、それとも単純なコマンドを理解することだけを目的としていますか? Sphinx4 のようなシステムは、音声の書き起こしに統計モデルを使用します。これらのタイプのシステムでは、文法を使用して ASR の検索スペースを制限して認識を向上させる自動音声認識 (ASR) システムの場合ほど良好な認識は得られません。統計モデルを使用するシステムでは、適切な認識を得るために多くの調整と試行が必要です。

Sphinx4 は、私が認識している唯一のオープン ソース ASR です。Nuance が市場で最大の商用製品/サービスが多数あります。一部の商用製品には、認識率が低い場合に人間がメッセージを転記するオプションがあります。

Google には、Google Voice などのサービスのために内部で使用する非公式の API があり、あなたが参照している Webkit で使用されているものと同じだと思います。Google Voice は、ボイス メール メッセージを文字に変換し、テキストをメールで送信します。Google Voice は文字起こしの最先端と見なされていますが、Voice アカウントを持っている場合、文字起こしされたメッセージはそれほど優れていないことがわかります。これは 、非公式の Google Speech API の使用に関するブログ記事へのリンクです。

于 2012-01-18T13:33:42.777 に答える
1

いくつかの問題があります: 1. クライアントでオーディオをキャプチャする方法。2. これらのオーディオをサーバーに転送する方法。3. 認識の仕方。4. 認識と信頼スコアを戻す方法。5. これらの認識と信頼スコア (アプリケーション) を使用して何をしますか。

最初のケースでは、誰かがマイク アイコンをクリックし、音声を数回録音するという Google のアプローチを使用できます。または、VAD を使用してオーディオを録音する iPhone Siri です。

2 つ目は、TCP/IP ファイル転送の基本的な問題です。Apple / Google のアプローチを使用して、Flac または Speex を使用して音声ファイルを圧縮することも可能です。

第三に、これは本当に難しい部分です。Voxforge から入手できるものよりもはるかに優れた音響モデルが必要です。これは、Siri のようなコンテキストフリーの連続音声認識に特に当てはまります。コマンドに関しては、Voxforge で十分です。

4 つ目は、別のファイル転送の問題です。

第五に、それはあなたのアプリケーションです。

難しいのは音声認識の部分です。おそらく他の問題は、これを何千人ものユーザーにスケーリングする方法です。Julius 音声認識を音声クライアントとして使用して、音声をキャプチャできます。この問題については、個人的にチャットできます。

于 2012-01-18T13:56:12.963 に答える
1

Chrome では、そのサーバーは独自の Google サーバーです。独自のバージョンを設定することはできません。人々はサーバーへの呼び出しをリバース エンジニアリングしました。例についてはhttp://mikepultz.com/2011/03/accessing-google-speech-api-chrome-11/を参照してください。 Google はいつでも API を変更したり、そのアクセスを制限したりする可能性があるためです。

これは別の質問に対する古い回答ですが、参考になるかもしれません - https://stackoverflow.com/a/6351055/90236

于 2012-01-18T13:22:06.530 に答える