ユーザーが最初にコマンドを記録し、後でシステムがそれらを認識しようとする小さなコマンド認識システムがあります。フロントエンドの特徴ベクトルは MFCC の係数です。バックエンドは、DTW を使用してこれらの特徴ベクトルを整列させ、スコアを出力することを使用して認識を行います (0 -> コマンドは等しい)。このセットアップの問題は、コマンド (ユーザーが記録したもの) を他の単語と区別することです。コマンドが認識されるしきい値として最大スコアを選択しても、良い結果は得られません。記録された特徴をより分離可能な別の特徴空間に投影する目的で、LDA と PCA を調べました。記録された各コマンドは、そのコマンドのフレームに関連付けられたフロントエンドからの特徴ベクトルをサンプルとして持つクラスです。それから、LDA に必要な変換を計算し、その変換を結果の MFCC 係数の各セットに適用しました。これでは、記録されたコマンドと urecorded コマンドを分離できませんでした。
私の質問は次のとおりです。
- LDAを適用するアプローチは間違っていますか?
- 私のセットアップに適した他の方法はありますか (MFCC + DTW)?
どんな助けや指導も大歓迎です。
ありがとうございました