問題タブ [librosa]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
726 参照

python - 注釈付きファイルに基づいてオーディオ セグメントの mfcc を生成する

私の主な目標は、mfcc 機能を ANN に供給することです。

ただし、データの前処理ステップで立ち往生しており、私の質問には 2 つの部分があります。
背景 :
私はオーディオを持っています。次のような注釈とタイムスタンプを持つ txt ファイルがあります。

単一のオーディオ ファイルについては、次のように librosa を使用して mfcc を計算できます。


パート 1:注釈のセグメントに基づいて mfcc を計算する方法という 2 つのことに頭を悩ませることができません。

パート 2: これらの mfcc を keras DNN に渡すために最適に保存する方法。つまり、オーディオ セグメントごとに計算されたすべての mfcc を単一のリスト/辞書に保存する必要があります。または、1 つのラベルに属するすべての mfcc が 1 つの場所にあるように、それらを別の辞書に保存することをお勧めします。

私はオーディオ処理と python を初めて使用するので、ベスト プラクティスに関する推奨事項を受け入れます。

追加の詳細を提供させていただきます。ありがとう。

0 投票する
1 に答える
1374 参照

python - mfcc ベクトルをアノテーションからのラベルと組み合わせてニューラル ネットワークに渡す方法

librosa を使用して、次のようにオーディオ ファイル用の mfcc を作成しました。

次のように、音声に対応する手動の注釈 [開始、停止、タグ] を含むテキスト ファイルもあります。

0.0 2.0 サウンド1
2.0 4.0 サウンド2
4.0 6.0 無音
6.0 8.0 サウンド1

質問: librosa によって生成された mfcc を、テキスト ファイルの注釈と組み合わせるにはどうすればよいですか。

最終的な目標は、ラベルに対応する mfcc を組み合わせ
て、ニューラル ネットワークに渡すことです。
そのため、ニューラル ネットワークには mfcc と対応するラベルがトレーニング データとして含まれます。

1 次元の場合、N 個の値を持つ N 個の列と、クラス ラベルを持つ最後の列 Y を持つことができます。しかし、mfcc は (16, X) または (20, Y) のような形をしているので、どのように進めればよいか混乱しています。だから、2つを組み合わせる方法がわかりません。

私のサンプル mfcc はここにあります: https://gist.github.com/manbharae/0a53f8dfef6055feef1d8912044e1418

助けてくださいよろしくお願いします。

更新: 目的は、ニューラル ネットワークをトレーニングして、将来遭遇したときに新しい音を識別できるようにすることです。

私はググって、mfccがスピーチに非常に適していることを発見しました。ただし、私の音声には音声がありますが、非音声を識別したいと考えています。汎用の音声分類/認識タスクに推奨されるその他の音声機能はありますか?