この研究論文から、トレーニングセットのデータに基づいて、標準ベクトル量子化アルゴリズムを再現して、識別されていない音声入力の言語を決定する方法を正確に判断するのに苦労しています。ここにいくつかの基本的な情報があります:
抽象情報
音響機能を使用した言語認識(日本語、英語、ドイツ語など)は、現在の音声技術にとって重要でありながら難しい問題です。...この論文で使用されている音声データベースには、20の言語が含まれています。16の文が4人の男性と4人の女性によって2回発声されました。各文の長さは約8秒です。最初のアルゴリズムは、標準のベクトル量子化(VQ)手法に基づいています。すべての言語は、独自のVQコードブックによって特徴付けられます。
認識アルゴリズム
最初のアルゴリズムは、標準のベクトル量子化(VQ)手法に基づいています。すべての言語はk
、独自のVQコードブックによって特徴付けられます。認識段階では、入力音声がによって量子化され
、累積された量子化歪みd_kが計算されます。最小限の歪みとして認識される言語。VQ歪みを計算すると、いくつかのLPCスペクトル歪み測定が適用されます...この場合、WLR-加重最小比-距離:
距離d
は、音響特性に対応する任意の距離にすることができ、コードブックの生成に使用される距離と同じである必要があります。各言語は、そのVQコードブックによって特徴付けられます。
私の質問は、これをどのように正確に行うのですか?私は英語で50文のセットを持っています。MATLABでは、任意の信号のWLRを簡単に計算できます。しかし、英語の「コードブック生成」にはWLRを使用する必要があるため、コードブックを作成するにはどうすればよいですか。サイズ16のVQコードブック(最適なサイズであることがわかった)を特定の入力信号と比較する方法についても興味があります。誰かが私のためにこの論文を蒸留するのを手伝ってくれるなら、私はそれを大いに感謝します。
ありがとう!