私は現在、音声認識 (SR) 技術の cyrrebt 状態を評価していますが、かなりの数の API とサービスが登場しているようです。
私自身の SR の経験では、キーワード マッチングは複数の話者でうまく機能し、ディクテーションは非常に管理された環境で訓練された話者とうまく機能します。これはまだ本当ですか?任意のオーディオ ファイルの音声をテキストに変換するための適切なアプローチはありますか? インデックス作成のためのオーディオ ストリームからのキーワード マッチング、または完全な文字起こしの試みである可能性があります。
ニュアンスと他のエンジンとオープン ソース ソリューションの比較についてコメントはありますか?