1

私は現在、音声認識 (SR) 技術の cyrrebt 状態を評価していますが、かなりの数の API とサービスが登場しているようです。

私自身の SR の経験では、キーワード マッチングは複数の話者でうまく機能し、ディクテーションは非常に管理された環境で訓練された話者とうまく機能します。これはまだ本当ですか?任意のオーディオ ファイルの音声をテキストに変換するための適切なアプローチはありますか? インデックス作成のためのオーディオ ストリームからのキーワード マッチング、または完全な文字起こしの試みである可能性があります。

ニュアンスと他のエンジンとオープン ソース ソリューションの比較についてコメントはありますか?

4

1 に答える 1

3

音声認識を中心に設計された新しくて使いやすいアプリケーションは引き続き作成されますが、音声認識自体はレンガの壁に到達しています。最高のエンジンでさえ、ノイズが存在するとすぐに精度が低下します。これは、ノイズの多い環境でこのテクノロジーを頻繁に使用するスマートフォンユーザーにとって大きな問題です。

より大きな関連する問題は、音声認識機能が十分な数の音声から1つの音声を選択できないことです(カクテルパーティーの問題)。これは、ほとんどの人間が比較的簡単に処理できる問題です。誰かがこの問題を解決するまで、私は音声認識技術があまり進歩しないのではないかと心配しています。解決策によって既存のすべての音声認識エンジンがほぼ一夜にして時代遅れになるため、これは10億ドルの問題です。

于 2012-09-07T15:39:18.093 に答える