私の主な目標は、mfcc 機能を ANN に供給することです。
ただし、データの前処理ステップで立ち往生しており、私の質問には 2 つの部分があります。
背景 :
私はオーディオを持っています。次のような注釈とタイムスタンプを持つ txt ファイルがあります。
0.0 2.5 Music
2.5 6.05 silence
6.05 8.34 notmusic
8.34 12.0 silence
12.0 15.5 music
単一のオーディオ ファイルについては、次のように librosa を使用して mfcc を計算できます。
import librosa
y, sr = librosa.load('abcd.wav')
mfcc=librosa.feature.mfcc(y=y, sr=sr)
パート 1:注釈のセグメントに基づいて mfcc を計算する方法という 2 つのことに頭を悩ませることができません。
パート 2: これらの mfcc を keras DNN に渡すために最適に保存する方法。つまり、オーディオ セグメントごとに計算されたすべての mfcc を単一のリスト/辞書に保存する必要があります。または、1 つのラベルに属するすべての mfcc が 1 つの場所にあるように、それらを別の辞書に保存することをお勧めします。
私はオーディオ処理と python を初めて使用するので、ベスト プラクティスに関する推奨事項を受け入れます。
追加の詳細を提供させていただきます。ありがとう。