1

ユーザーがプロンプトの後に文を繰り返すように求められるシステムがあります。これは、(文の)事前定義された単語レベルのラベルファイルHTKへのユーザーの口頭文を使用して、時間調整された電話レベルのファイルを取得します。force-alignHMMは大量のデータでトレーニングされており、。を使用して非常に正確な時間調整されたファイルを提供しHViteます。私の問題は、ユーザーが話す必要のある正確な文を話さない場合に発生します。例を挙げて説明しましょう。

  1. 話す必要のある(ユーザーに知られている)ターゲット文の単語レベルのラベルファイル:これは
    非常に良い日です。

  2. ユーザーのコメント(ケース1):これはとても良い日です。
    この場合、ユーザーはまったく同じ文を繰り返しています。時間調整されたファイルは非常に正確で、すべてが順調です。

  3. ユーザーのコメント(ケース2):これは良い日です。
    この場合、強制位置合わせは、上記のように単語レベルのラベルファイルを使用して実行されます。結果として得られる時間調整されたファイルには、ユーザーが話したことがない単語の時刻が表示されます(元の文には存在するが、ここには存在しないVERYなど)。

HTKこれを検出し、場合によっては回避する 方法はありますか?

解決策の1つは、音声認識を行い(無限の語彙が必要になるため、それ自体が非常に難しい問題です)、話している内容が正しくないことをユーザーに知らせる、ある種のフロントエンドプリプロセッサです。

これを可能にするツール/コマンドラインオプションはありますHTKか?

PS:詳細が必要な場合に備えて、私に知らせてください。

ありがとう、
スリラム

4

1 に答える 1

2

誤った転記の可能性があるテキストを揃える作業はかなり複雑で、専用のツールが必要です。HTK 強制アラインメントは単純すぎます。-a で HVite を使用する代わりに、転写の不一致による挿入、削除、および置換の可能性を考慮する適切な wdnet を構築する必要があります。

CMUSphinx では現在、この機能を実装するプロジェクトを実行しています。すでにそれを使用して、テキストを不正確な転記に合わせることができます。ここで進行状況を確認できます。

http://cmusphinx.sourceforge.net/?s=long+audio+alignment

于 2011-07-24T10:01:36.627 に答える