0

メル周波数ケプストラム係数を使用した音声認識用のソフトウェアを実装しています。特に、システムは指定された単一の単語を認識しなければなりません。オーディオ ファイル以降、12 行 (MFCC) と音声フレーム数と同じ数の列を持つマトリックスで MFCC を取得します。行の平均を作成するので、12 行のみのベクトルが得られます (i 番目の行は、すべてのフレームのすべての i 番目の MFCC の平均です)。私の質問は、分類子をトレーニングして単語を検出する方法です。いくつかのオーディオ ファイル (同じ単語の複数の登録) から取得した MFCC であるポジティブ サンプルのみを含むトレーニング セットがあります。

4

1 に答える 1