5

この研究論文から、トレーニングセットのデータに基づいて、標準ベクトル量子化アルゴリズムを再現して、識別されていない音声入力の言語を決定する方法を正確に判断するのに苦労しています。ここにいくつかの基本的な情報があります:

抽象情報 音響機能を使用した言語認識(日本語、英語、ドイツ語など)は、現在の音声技術にとって重要でありながら難しい問題です。...この論文で使用されている音声データベースには、20の言語が含まれています。16の文が4人の男性と4人の女性によって2回発声されました。各文の長さは約8秒です。最初のアルゴリズムは、標準のベクトル量子化(VQ)手法に基づいています。すべての言語は、独自のVQコードブックによって特徴付けられ代替テキストます。

認識アルゴリズム 最初のアルゴリズムは、標準のベクトル量子化(VQ)手法に基づいています。すべての言語はk、独自のVQコードブックによって特徴付けられ代替テキストます。認識段階では、入力音声がによって量子化され代替テキスト、累積された量子化歪みd_kが計算されます。最小限の歪みとして認識される言語。VQ歪みを計算すると、いくつかのLPCスペクトル歪み測定が適用されます...この場合、WLR-加重最小比-距離:

標準VQアルゴリズム: コードブック、代替テキスト

、各言語はトレーニング文を使用して生成されます。文中の入力ベクトルの累積距離![alt text] [4]は、次のように定義されます。[![alt text] [5]] [5]

距離dは、音響特性に対応する任意の距離にすることができ、コードブックの生成に使用される距離と同じである必要があります。各言語は、そのVQコードブックによって特徴付けられ代替テキストます。

私の質問は、これをどのように正確に行うのですか?私は英語で50文のセットを持っています。MATLABでは、任意の信号のWLRを簡単に計算できます。しかし、英語の「コードブック生成」にはWLRを使用する必要があるため、コードブックを作成するにはどうすればよいですか。サイズ16のVQコードブック(最適なサイズであることがわかった)を特定の入力信号と比較する方法についても興味があります。誰かが私のためにこの論文を蒸留するのを手伝ってくれるなら、私はそれを大いに感謝します。

ありがとう!

4

1 に答える 1

1

2番目の質問(コードブックを特定の信号と比較する)はより簡単です。各コードブックエントリV_k_jについて、入力信号を使用して距離dを計算する必要があります。距離が最小の「j」「d」は、最適なコードブックエントリに対応します。距離関数として、WLRを使用できます

コードブック(trainig)の作成はもう少し複雑です。文を長さN(16)のベクトルに分割してから、クラスタリングアルゴリズム(k-meansなど)を使用してこれらのベクトルをクラスタリングする必要があります。次に、すべてのクラスターで平均を求めます。これは、コードブックのエントリを意味します。頭に浮かぶのは最初のことです。

別のアルゴリズム(私はそれがより良いと信じています)はここにあります。また、ウィキペディアには2つの簡単なトレーニングアルゴリズムが記載されています。

于 2010-02-16T09:10:48.777 に答える