アプリケーションのようなディクテーション用の音声認識システムを構築したいと考えています。私は htk の本や他のチュートリアルを読みましたが、すべてのチュートリアルはコマンド アンド コントロールのようなアプリケーションに関するものです。gram
これらのアプリケーションでは、一連のコマンドと単語が制限されており、タスク文法 (ファイル)を使用して手動で指定されます。
私のアプリケーションでは、2 人の会話を含む巨大なオーディオ ファイルを処理するため、そのような文法を指定することはできません。
htk を使用してそのようなアプリケーションを構築できるかどうかを知りたいです。
ありがとう...
睡眠不足の夜を何度も過ごした後の更新
Sphinx を使用して 86% の精度を得ました。言語モデルに問題がありました (何が問題なのか正確にはわかりませんが、それを見つけようとしています) ためlmtool
、Web ベースの言語モデル生成サービスである Sphinx を使用して新しい言語モデルを作成しました。このリンクを使用して取得できます
また、音響モデルをHUBからWSJに変更しました。