問題タブ [librosa]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pythonでオーディオの類似性を比較するには?
Python ベースのオーディオ ライブラリ librosa を使用して、ノート開始イベントの音楽オーディオ トラックを分析しています。この情報を使用して、これらのトラックをいくつかの小さくて非常に短いピース/スライスにスライスしています - すべてノート開始イベントに基づいています。
それらのスライスを持って、クロマグラムやMFCCなどの機能抽出用のlibrosa組み込みツールを使用してそれらを分析しています。出力は次のようになります。
ご覧のとおり、これらの関数は、抽出された特徴に関する情報を保持するマトリックスを出力します。これらすべての情報 (機能、スライスの開始と終了、ファイル名) は (sqlite) データベースに保存されます。スライスされた音声データがリリースされます。
特徴は、分析されたオーディオの「タイプ」/サウンドを数値で記述し、類似度計算を行うための優れたベースとなります。
このすべての情報 (および数百の分析トラックを含む大規模なデータベース) を取得して、ランダムなスライスを選択し、それをデータベース内の他のすべてのスライスと比較して、選択したスライスに最も類似したスライスを見つけられるようにしたいと考えています。抽出された特徴情報。
類似性に関する上記の関数の結果を比較するにはどうすればよいですか?
python - Librosaスクリプトの例を実行しているmatplotlibの「セグメンテーション違反」
多くの問題の後、Linux Mint 18 Mate x64 にLibrosa ( https://github.com/librosa/librosa ) をインストールしました。たとえば、サンプル スクリプトを実行したい場合: http://librosa.github.io/librosa/generated/librosa.feature.tempogram.html#librosa.feature.tempogram、「セグメンテーション違反」エラーでクラッシュします。
行ごとにデバッグしようとしましたが、結果は次のとおりです。
おそらく、matplotlib ライブラリと Qt (5.7.0) に問題があります。さらに、matplotlib を含む Librosa のインストール時に多くの問題が発生したことを覚えているため、インストールの問題である可能性があります。しかし、私はそれを解決する方法がわかりません。誰かが私に役立つ手がかりを持ってくれることを願っています。
python - 完全なリストを出力または保存できないのはなぜですか?
現在、サンプルを使用してニューラルネットワークをトレーニングできるように、オーディオファイルをサンプリングしようとしています。問題は、プログラムをテストするたびにサンプリングを行う必要がないように、すべてのサンプルを表示したり、ファイルに保存したりできないことです。
印刷するか、ファイルに保存すると、次のように保存されます...
意味がないように見えるもの..すべての値を取得するにはどうすればよいですか?
python ライブラリ librosa を使用してオーディオ ファイルをサンプリングしています。
コードは次のとおりです。
私は何を間違っていますか?サンプリングしているオーディオ ファイルがフルに使用できる場合は、アクセスを提供できます。
python - 各フレームの長さが等しくないのはなぜですか?
現在、ニューラル ネットワークの入力として提供できるように、いくつかのオーディオ ファイルをサンプリングしてフレーミングしています。私はLibrosaを使用してオーディオをサンプリングし、それをフレーミングしています。特にフレーミングは非常に重要です。これは、これがニューラルネットワークのニーズの入力として供給されているためです。つまり、長さが一貫している必要があり、現在の問題のようです. フレーム。
現在、次のようにサンプリングしてフレーミングしています。
各オーディオ ファイルはリストに追加され、リスト内の各エントリには各フレームの配列があります。raw_sounds の情報は次のように保存されます。
サイズの異なるフレームに問題があるようです。各オーディオ ファイルの長さは異なりますが、同じ設定でフレーム化するため、各フレームは同じである必要がありますが、これらの印刷デバッグによるとそうではありません。
出力:
設定が間違っていますか?または私はここで何か間違っていますか?
生サンプル:
python - 別々のオーディオ ファイル間で一貫したフレーム サイズを確保するにはどうすればよいですか?
私は現在、MFCC機能を抽出する目的でネットワークを回帰しようとしています。ネットワークの入力は、サンプリングされ、フレーム化されたオーディオ ファイルです。これには、いくつかの問題があるようです。または、一貫した出力が得られるような方法で実行します。つまり、入力として機能しないため、一貫したフレーム サイズを意味します。ニューラル ネットワークの場合。
現在、各オーディオファイルを次のようにサンプリングしてフレーミングしています。
各オーディオがリストに追加され、各リスト内にフレーム化されたオーディオファイルの配列があることを意味します。
これを印刷してみた
で、こんな結果になりました
しかし、なぜ私はこの結果を得ているのですか?フレーミング オプションに関しては何も変更していませんが、なぜ異なるのですか?
また、一貫性を保つ方法がない場合、一貫性のない入力を使用して、これを実行できるニューラル ネットワークをどのようにトレーニングするのでしょうか?
python - librosa のフレームにウィンドウ関数を適用する
現在、ASR システムに取り組んでいますが、各フレームにウィンドウ関数を適用するのを忘れていました。抽出していますが、これが悪い結果を受け取っている原因である可能性があります。しかし、それは可能librosa
ですか?
librosa のドキュメントにこのオプションが見つかりません。
そのように抽出された各フレームにハミング ウィンドウを適用する必要があります。
python - mfcc 機能サイズは再帰型ニューラル ネットワークにどのように影響しますか
だから私は機械学習を学んでいて、mfcc 機能サイズが RNN (Recurent Neural Network) にどのように影響するか知りたいと思っていましたか?
librosa を使用して、mfcc を抽出し、次にデルタ係数を抽出した後、次元 [13, sound_length] の配列を取得します。
Python で mfcc とデルタ係数を抽出するコード: (y - サウンド ファイル データ、sr - y の長さ)
したがって、理論的には、この種のデータと n_mfcc=39 のデータを使用してネットワークをトレーニングしたい場合。誰がより良いでしょうか、そしてその理由は何ですか? (他のすべてのハイパー パラメーターは無視します) このパラメーターが RNN にどのように影響するかについての理論を知りたいだけです。