0

アプリケーションのようなディクテーション用の音声認識システムを構築したいと考えています。私は htk の本や他のチュートリアルを読みましたが、すべてのチュートリアルはコマンド アンド コントロールのようなアプリケーションに関するものです。gramこれらのアプリケーションでは、一連のコマンドと単語が制限されており、タスク文法 (ファイル)を使用して手動で指定されます。

私のアプリケーションでは、2 人の会話を含む巨大なオーディオ ファイルを処理するため、そのような文法を指定することはできません。

htk を使用してそのようなアプリケーションを構築できるかどうかを知りたいです。

ありがとう...


睡眠不足の夜を何度も過ごした後の更新

Sphinx を使用して 86% の精度を得ました。言語モデルに問題がありました (何が問題なのか正確にはわかりませんが、それを見つけようとしています) ためlmtool、Web ベースの言語モデル生成サービスである Sphinx を使用して新しい言語モデルを作成しました。このリンクを使用して取得できます

また、音響モデルをHUBからWSJに変更しました。

4

1 に答える 1

2

はい、できます。そのためのデコーダが 2 つあります。

攻撃力

ユリウス

どちらも、大語彙音声認識用の言語モデルを提供する必要があります

やや使いやすいCMUSphinxもご覧になることをお勧めします

于 2013-03-11T18:29:27.060 に答える