librosa を使用して、次のようにオーディオ ファイル用の mfcc を作成しました。
import librosa
y, sr = librosa.load('myfile.wav')
print y
print sr
mfcc=librosa.feature.mfcc(y=y, sr=sr)
次のように、音声に対応する手動の注釈 [開始、停止、タグ] を含むテキスト ファイルもあります。
0.0 2.0 サウンド1
2.0 4.0 サウンド2
4.0 6.0 無音
6.0 8.0 サウンド1
質問: librosa によって生成された mfcc を、テキスト ファイルの注釈と組み合わせるにはどうすればよいですか。
最終的な目標は、ラベルに対応する mfcc を組み合わせ
て、ニューラル ネットワークに渡すことです。
そのため、ニューラル ネットワークには mfcc と対応するラベルがトレーニング データとして含まれます。
1 次元の場合、N 個の値を持つ N 個の列と、クラス ラベルを持つ最後の列 Y を持つことができます。しかし、mfcc は (16, X) または (20, Y) のような形をしているので、どのように進めればよいか混乱しています。だから、2つを組み合わせる方法がわかりません。
私のサンプル mfcc はここにあります: https://gist.github.com/manbharae/0a53f8dfef6055feef1d8912044e1418
助けてくださいよろしくお願いします。
更新: 目的は、ニューラル ネットワークをトレーニングして、将来遭遇したときに新しい音を識別できるようにすることです。
私はググって、mfccがスピーチに非常に適していることを発見しました。ただし、私の音声には音声がありますが、非音声を識別したいと考えています。汎用の音声分類/認識タスクに推奨されるその他の音声機能はありますか?