私の最終年度のプロジェクトでは、犬/樹皮/鳥の音をリアルタイムで識別しようとしています (サウンド クリップを録音することによって)。オーディオ機能として MFCC を使用しています。最初に、jAudio ライブラリを使用してサウンド クリップから 12 個の MFCC ベクトルを抽出しました。今、私は機械学習アルゴリズムを訓練しようとしています (現時点ではアルゴリズムを決定していませんが、おそらく SVM です)。サウンド クリップのサイズは約 3 秒です。このプロセスに関するいくつかの情報を明確にする必要があります。彼らです、
フレームベースの MFCC (フレームごとに 12) または全体的なクリップベースの MFCC (サウンドクリップごとに 12) を使用して、このアルゴリズムをトレーニングする必要がありますか?
アルゴリズムをトレーニングするには、12 の MFCC すべてを 12 の異なる属性と見なす必要がありますか、それとも 12 の MFCC を 1 つの属性と見なす必要がありますか?
これらの MFCC は、クリップの全体的な MFCCS です。
-9.598802712290967 -21.644963856237265 -7.405551798816725 -11.638107212413201 -19.441831623156144 -2.780967392843105 -0.5792847321137902 -13.14237288849559 -4.920408873192934 -2.7111507999281925 -7.336670942457227 2.4687330348335212
これらの問題を克服するために、どんな助けも本当に感謝しています。Google で適切なヘルプを見つけることができませんでした。:)