2

の音声ファイルが与えられると22 mins (1320 secs)、Librosa は次の方法で MFCC 特徴を抽出します。 data = librosa.feature.mfcc(y=None, sr=22050, S=None, n_mfcc=20, **kwargs)

data.shape (20,56829) 56829 フレームの 20 個の MFCC 機能の numpy 配列を返します。

私の質問は、56829 をどのように計算したかです。このフレームを達成するための計算はありますか? 各フレームのウィンドウ サイズは?

4

1 に答える 1

4

ホップの長さを指定できます

mfcc = librosa.feature.mfcc(y=y, sr=sr, hop_length=hop_length, n_mfcc=13)

librosa は中心フレームを使用するため、k 番目のフレームはサンプル k * hop_length を中心に配置されます。

デフォルトのホップ値は 512 で、データ (1320*22050)/56829 = 512,16 だと思います

于 2016-11-02T15:51:26.103 に答える