の音声ファイルが与えられると22 mins (1320 secs)
、Librosa は次の方法で MFCC 特徴を抽出します。
data = librosa.feature.mfcc(y=None, sr=22050, S=None, n_mfcc=20, **kwargs)
data.shape (20,56829) 56829 フレームの 20 個の MFCC 機能の numpy 配列を返します。
私の質問は、56829 をどのように計算したかです。このフレームを達成するための計算はありますか? 各フレームのウィンドウ サイズは?