ユーザーがプロンプトの後に文を繰り返すように求められるシステムがあります。これは、(文の)事前定義された単語レベルのラベルファイルHTK
へのユーザーの口頭文を使用して、時間調整された電話レベルのファイルを取得します。force-align
HMMは大量のデータでトレーニングされており、。を使用して非常に正確な時間調整されたファイルを提供しHVite
ます。私の問題は、ユーザーが話す必要のある正確な文を話さない場合に発生します。例を挙げて説明しましょう。
話す必要のある(ユーザーに知られている)ターゲット文の単語レベルのラベルファイル:これは
非常に良い日です。ユーザーのコメント(ケース1):これはとても良い日です。
この場合、ユーザーはまったく同じ文を繰り返しています。時間調整されたファイルは非常に正確で、すべてが順調です。ユーザーのコメント(ケース2):これは良い日です。
この場合、強制位置合わせは、上記のように単語レベルのラベルファイルを使用して実行されます。結果として得られる時間調整されたファイルには、ユーザーが話したことがない単語の時刻が表示されます(元の文には存在するが、ここには存在しないVERYなど)。
HTK
これを検出し、場合によっては回避する 方法はありますか?
解決策の1つは、音声認識を行い(無限の語彙が必要になるため、それ自体が非常に難しい問題です)、話している内容が正しくないことをユーザーに知らせる、ある種のフロントエンドプリプロセッサです。
これを可能にするツール/コマンドラインオプションはありますHTK
か?
PS:詳細が必要な場合に備えて、私に知らせてください。
ありがとう、
スリラム