“librosa”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

7270 参照

python - Pythonでオーディオの類似性を比較するには?

Python ベースのオーディオライブラリ librosa を使用して、ノート開始イベントの音楽オーディオトラックを分析しています。この情報を使用して、これらのトラックをいくつかの小さくて非常に短いピース/スライスにスライスしています - すべてノート開始イベントに基づいています。

それらのスライスを持って、クロマグラムやMFCCなどの機能抽出用の librosa組み込みツールを使用してそれらを分析しています。出力は次のようになります。

ご覧のとおり、これらの関数は、抽出された特徴に関する情報を保持するマトリックスを出力します。これらすべての情報 (機能、スライスの開始と終了、ファイル名) は (sqlite) データベースに保存されます。スライスされた音声データがリリースされます。

特徴は、分析されたオーディオの「タイプ」/サウンドを数値で記述し、類似度計算を行うための優れたベースとなります。

このすべての情報 (および数百の分析トラックを含む大規模なデータベース) を取得して、ランダムなスライスを選択し、それをデータベース内の他のすべてのスライスと比較して、選択したスライスに最も類似したスライスを見つけられるようにしたいと考えています。抽出された特徴情報。

類似性に関する上記の関数の結果を比較するにはどうすればよいですか?

2016-08-16T10:02:51.623

0 投票する

1 に答える

1576 参照

python - Librosaスクリプトの例を実行しているmatplotlibの「セグメンテーション違反」

多くの問題の後、Linux Mint 18 Mate x64 にLibrosa ( https://github.com/librosa/librosa ) をインストールしました。たとえば、サンプルスクリプトを実行したい場合: http://librosa.github.io/librosa/generated/librosa.feature.tempogram.html#librosa.feature.tempogram、「セグメンテーション違反」エラーでクラッシュします。

行ごとにデバッグしようとしましたが、結果は次のとおりです。

おそらく、matplotlib ライブラリと Qt (5.7.0) に問題があります。さらに、matplotlib を含む Librosa のインストール時に多くの問題が発生したことを覚えているため、インストールの問題である可能性があります。しかし、私はそれを解決する方法がわかりません。誰かが私に役立つ手がかりを持ってくれることを願っています。

python python-2.7 qt matplotlib librosa

2016-08-21T16:55:26.863

0 投票する

0 に答える

42 参照

python - 完全なリストを出力または保存できないのはなぜですか?

現在、サンプルを使用してニューラルネットワークをトレーニングできるように、オーディオファイルをサンプリングしようとしています。問題は、プログラムをテストするたびにサンプリングを行う必要がないように、すべてのサンプルを表示したり、ファイルに保存したりできないことです。

印刷するか、ファイルに保存すると、次のように保存されます...

意味がないように見えるもの..すべての値を取得するにはどうすればよいですか?

python ライブラリ librosa を使用してオーディオファイルをサンプリングしています。

コードは次のとおりです。

私は何を間違っていますか？サンプリングしているオーディオファイルがフルに使用できる場合は、アクセスを提供できます。

python numpy librosa

2016-10-12T15:36:05.520

0 投票する

1 に答える

403 参照

python - 各フレームの長さが等しくないのはなぜですか?

現在、ニューラルネットワークの入力として提供できるように、いくつかのオーディオファイルをサンプリングしてフレーミングしています。私はLibrosaを使用してオーディオをサンプリングし、それをフレーミングしています。特にフレーミングは非常に重要です。これは、これがニューラルネットワークのニーズの入力として供給されているためです。つまり、長さが一貫している必要があり、現在の問題のようです. フレーム。

現在、次のようにサンプリングしてフレーミングしています。

各オーディオファイルはリストに追加され、リスト内の各エントリには各フレームの配列があります。raw_sounds の情報は次のように保存されます。

サイズの異なるフレームに問題があるようです。各オーディオファイルの長さは異なりますが、同じ設定でフレーム化するため、各フレームは同じである必要がありますが、これらの印刷デバッグによるとそうではありません。

出力：

設定が間違っていますか？または私はここで何か間違っていますか？

生サンプル:

python python-2.7 audio librosa

2016-11-05T17:31:55.140

0 投票する

2 に答える

361 参照

python - 別々のオーディオファイル間で一貫したフレームサイズを確保するにはどうすればよいですか?

私は現在、MFCC機能を抽出する目的でネットワークを回帰しようとしています。ネットワークの入力は、サンプリングされ、フレーム化されたオーディオファイルです。これには、いくつかの問題があるようです。または、一貫した出力が得られるような方法で実行します。つまり、入力として機能しないため、一貫したフレームサイズを意味します。ニューラルネットワークの場合。

現在、各オーディオファイルを次のようにサンプリングしてフレーミングしています。

各オーディオがリストに追加され、各リスト内にフレーム化されたオーディオファイルの配列があることを意味します。

これを印刷してみた

で、こんな結果になりました

しかし、なぜ私はこの結果を得ているのですか？フレーミングオプションに関しては何も変更していませんが、なぜ異なるのですか?

また、一貫性を保つ方法がない場合、一貫性のない入力を使用して、これを実行できるニューラルネットワークをどのようにトレーニングするのでしょうか?

python python-2.7 audio tensorflow librosa

2016-11-06T13:47:30.900

0 投票する

1 に答える

2718 参照

python - librosa のフレームにウィンドウ関数を適用する

現在、ASR システムに取り組んでいますが、各フレームにウィンドウ関数を適用するのを忘れていました。抽出していますが、これが悪い結果を受け取っている原因である可能性があります。しかし、それは可能librosaですか？

librosa のドキュメントにこのオプションが見つかりません。

そのように抽出された各フレームにハミングウィンドウを適用する必要があります。

python audio speech-recognition librosa

2016-12-28T00:20:46.947

0 投票する

1 に答える

1298 参照

python - mfcc 機能サイズは再帰型ニューラルネットワークにどのように影響しますか

だから私は機械学習を学んでいて、mfcc 機能サイズが RNN (Recurent Neural Network) にどのように影響するか知りたいと思っていましたか?

librosa を使用して、mfcc を抽出し、次にデルタ係数を抽出した後、次元 [13, sound_length] の配列を取得します。

Python で mfcc とデルタ係数を抽出するコード: (y - サウンドファイルデータ、sr - y の長さ)

したがって、理論的には、この種のデータと n_mfcc=39 のデータを使用してネットワークをトレーニングしたい場合。誰がより良いでしょうか、そしてその理由は何ですか? (他のすべてのハイパーパラメーターは無視します) このパラメーターが RNN にどのように影響するかについての理論を知りたいだけです。

python machine-learning recurrent-neural-network mfcc librosa

2017-01-10T03:31:57.417

問題タブ [librosa]

Reference