4

librosa を使用して、次のようにオーディオ ファイル用の mfcc を作成しました。

import librosa
y, sr = librosa.load('myfile.wav')
print y
print sr
mfcc=librosa.feature.mfcc(y=y, sr=sr)

次のように、音声に対応する手動の注釈 [開始、停止、タグ] を含むテキスト ファイルもあります。

0.0 2.0 サウンド1
2.0 4.0 サウンド2
4.0 6.0 無音
6.0 8.0 サウンド1

質問: librosa によって生成された mfcc を、テキスト ファイルの注釈と組み合わせるにはどうすればよいですか。

最終的な目標は、ラベルに対応する mfcc を組み合わせ
て、ニューラル ネットワークに渡すことです。
そのため、ニューラル ネットワークには mfcc と対応するラベルがトレーニング データとして含まれます。

1 次元の場合、N 個の値を持つ N 個の列と、クラス ラベルを持つ最後の列 Y を持つことができます。しかし、mfcc は (16, X) または (20, Y) のような形をしているので、どのように進めればよいか混乱しています。だから、2つを組み合わせる方法がわかりません。

私のサンプル mfcc はここにあります: https://gist.github.com/manbharae/0a53f8dfef6055feef1d8912044e1418

助けてくださいよろしくお願いします。

更新: 目的は、ニューラル ネットワークをトレーニングして、将来遭遇したときに新しい音を識別できるようにすることです。

私はググって、mfccがスピーチに非常に適していることを発見しました。ただし、私の音声には音声がありますが、非音声を識別したいと考えています。汎用の音声分類/認識タスクに推奨されるその他の音声機能はありますか?

4

1 に答える 1