python - 別々のオーディオファイル間で一貫したフレームサイズを確保するにはどうすればよいですか?

Question

私は現在、MFCC機能を抽出する目的でネットワークを回帰しようとしています。ネットワークの入力は、サンプリングされ、フレーム化されたオーディオファイルです。これには、いくつかの問題があるようです。または、一貫した出力が得られるような方法で実行します。つまり、入力として機能しないため、一貫したフレームサイズを意味します。ニューラルネットワークの場合。

現在、各オーディオファイルを次のようにサンプリングしてフレーミングしています。

def load_sound_files(file_paths , data_input):
    raw_sounds = []
    data_output = []
    for fp in file_paths:
        y,sr = librosa.load(fp)
        X = librosa.util.frame(y)
        raw_sounds.append(X)
    return raw_sounds

各オーディオがリストに追加され、各リスト内にフレーム化されたオーディオファイルの配列があることを意味します。

[array([[frame],[frame],...,[frame]],dtype=float32), ...]

これを印刷してみた

print raw_sounds[0].shape
print raw_sounds[1].shape

で、こんな結果になりました

(2048, 121)
(2048, 96)

しかし、なぜ私はこの結果を得ているのですか？フレーミングオプションに関しては何も変更していませんが、なぜ異なるのですか?

また、一貫性を保つ方法がない場合、一貫性のない入力を使用して、これを実行できるニューラルネットワークをどのようにトレーニングするのでしょうか?

score 1 · Accepted Answer

あなたの結果

(2048, 121)
(2048, 96)

フレームの長さとフレーム数を指定します。したがって、フレームサイズは実際には一貫して 2048 サンプルの長さになります。2 つの唯一の違いは、最初のサウンドファイルに 121 フレーム、2 番目のサウンドファイルに 96 フレームがあることです。

score 0 · Accepted Answer

オーディオファイルは、長さが異なるシーケンスです。

可変長入力を処理する方法は複数あります。通常、固定次元の入力をニューラルネットワークに複数回 (オーディオフレームごとに 1 回) フィードします。次に、ネットワークはRNN、LSTM、または seq2seq (流動的ですが、contrib/seq2seq 内) などのアーキテクチャを使用してシーケンスから学習します。シンプルな DNN (フィードフォワード) アーキテクチャを使用することもできます。

python - 別々のオーディオ ファイル間で一貫したフレーム サイズを確保するにはどうすればよいですか?

2 に答える 2

Related

Reference

python - 別々のオーディオファイル間で一貫したフレームサイズを確保するにはどうすればよいですか?