問題タブ [audio-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - wavファイルの瞬時周波数の計算方法
人間の声の録音を含む wav ファイルがあります。話された単語の平均頻度を計算したい。通常、男性の声は最大 200hz で、女性の声はわずかに高くなります。たとえば。そのような170 Hzのような答えが欲しいのですが、それを行う方法がわかりません。私を助けてください。
python - 周波数分析のためにスピーカーのオーディオ出力を分析する方法は? パイソン3.6
Python 3.6 Ubuntu 18.04
pyaudio モジュールを使用して、スピーカーから出力されるオーディオを正常に録音し、テストのために、それを WAV ファイルに正しく保存できました。これは、はるかに大規模なマルチスレッド アプリケーションの一部であるため、調整が計画どおりに機能していることを嬉しく思います。ここで、データに対してオーディオ分析を実行して、オーディオに存在する支配的な周波数を収集したいと考えています。だから、私はいくつかの質問があります.1つは興味があるのでより一般的なもので、もう1つは私の問題に特化したものです:
1.) オーディオ フレームをキャプチャするために使用するコードのスニペットを次に示します。
audio_frame
私の最初の質問は、変数でどのようなデータが表されているかということです。読み取り操作ごとに 4096 バイトのリストが返されます ( AUDIO_FRAME_SIZE_BYTES
1024 に設定されていますが)。これは実際には何を表しているのでしょうか? それはすべて純粋な音声データであり、チャンネル数やフォーマットなどを後で再解釈するために提供する必要がありますか? それとも4096バイトにそのような情報が含まれているのでしょうか?
2.) このデータに対して周波数分析を実行する最良の方法は何ですか? WAV ファイルのコンテンツに対して FFT を実行する最良の方法について多くの情報を目にしますが、これをリアルタイムで、またはほぼリアルタイムで実行したいと考えています。読み書きを同時に行うために WAV ファイルを開く方法がわからないので、基本的にそこを通過することはできません。の生データに対してこの分析を実行できますaudio_frame
か? 実際にWAVファイルに書き込むことなく、このSO回答の一般的なロジックに従うことができるかどうかを確認するために、最初の質問をしたのはそのためだと思います。
前もって感謝します!
rest - ビデオからの音声認識
オーディオのごく一部を使用して、ビデオから正確な時間枠の場所を知る必要があります。Google、Amazon、または Microsoft の音声/オーディオ ソリューションを使用して、外部 API を使用することをお勧めします。誰が私が何を使うことができるか知っていますか? ありがとう。
python-3.x - フォルダの冗長化
私は次の構造を持っています。サブフォルダー (マシン、銃声) を反復処理して .wav ファイルを処理し、各カテゴリの mfccresult フォルダーとその中の .csv ファイルを作成したいと考えています。次のコードがあり、MFCC フォルダーは既に形成されている MFCC フォルダーに形成され続けています。