問題タブ [librosa]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 注釈付きファイルに基づいてオーディオ セグメントの mfcc を生成する
私の主な目標は、mfcc 機能を ANN に供給することです。
ただし、データの前処理ステップで立ち往生しており、私の質問には 2 つの部分があります。
背景 :
私はオーディオを持っています。次のような注釈とタイムスタンプを持つ txt ファイルがあります。
単一のオーディオ ファイルについては、次のように librosa を使用して mfcc を計算できます。
パート 1:注釈のセグメントに基づいて mfcc を計算する方法という 2 つのことに頭を悩ませることができません。
パート 2: これらの mfcc を keras DNN に渡すために最適に保存する方法。つまり、オーディオ セグメントごとに計算されたすべての mfcc を単一のリスト/辞書に保存する必要があります。または、1 つのラベルに属するすべての mfcc が 1 つの場所にあるように、それらを別の辞書に保存することをお勧めします。
私はオーディオ処理と python を初めて使用するので、ベスト プラクティスに関する推奨事項を受け入れます。
追加の詳細を提供させていただきます。ありがとう。
python - mfcc ベクトルをアノテーションからのラベルと組み合わせてニューラル ネットワークに渡す方法
librosa を使用して、次のようにオーディオ ファイル用の mfcc を作成しました。
次のように、音声に対応する手動の注釈 [開始、停止、タグ] を含むテキスト ファイルもあります。
0.0 2.0 サウンド1
2.0 4.0 サウンド2
4.0 6.0 無音
6.0 8.0 サウンド1
質問: librosa によって生成された mfcc を、テキスト ファイルの注釈と組み合わせるにはどうすればよいですか。
最終的な目標は、ラベルに対応する mfcc を組み合わせ
て、ニューラル ネットワークに渡すことです。
そのため、ニューラル ネットワークには mfcc と対応するラベルがトレーニング データとして含まれます。
1 次元の場合、N 個の値を持つ N 個の列と、クラス ラベルを持つ最後の列 Y を持つことができます。しかし、mfcc は (16, X) または (20, Y) のような形をしているので、どのように進めればよいか混乱しています。だから、2つを組み合わせる方法がわかりません。
私のサンプル mfcc はここにあります: https://gist.github.com/manbharae/0a53f8dfef6055feef1d8912044e1418
助けてくださいよろしくお願いします。
更新: 目的は、ニューラル ネットワークをトレーニングして、将来遭遇したときに新しい音を識別できるようにすることです。
私はググって、mfccがスピーチに非常に適していることを発見しました。ただし、私の音声には音声がありますが、非音声を識別したいと考えています。汎用の音声分類/認識タスクに推奨されるその他の音声機能はありますか?