問題タブ [audio-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Marf オーディオ分析 : SpeakerIdent アプリのデータはどこにありますか?
音声解析にはmarfのSpeakerIdentAppを使用しています。speakerIdentApp によって提供される以外のデータを使用して調査したかったのです。http://www.wavsource.com/でいくつかの wave ファイルを試してみましたが、これらのファイルは marf でサポートされていません。
次に、SOX を使用してファイルを 16 ビットに変換しようとしましたが、ファイルは MP3 でエンコードされており、mp3 エンコードの wav ファイルをサポートしていません。
したがって、私の問題は、marf 16 ビット ウェーブ ファイルでサポートされているデータを見つけることです。
python-2.7 - PYTHON での音声分析
4つのマイク入力を備えた外部サウンドカードデバイスを使用しており、USBでラップトップに接続しています。そのため、マイクからの音声のサンプルを取得し、どのマイクが 1 番目、2 番目、3 番目、4 番目の音をキャプチャしたかを示す棒グラフまたはグラフィックを作成する必要があります。その情報を csv ファイルに取り込んでから、グラフを作成することを考えていましたか? 何か助けてください。
ありがとうございました!!
html5-audio - Web Audio API を使用して x 秒先のオーディオを分析する
AnalyserNode
によって提供されるオーディオを分析するために を使用していMediaElementAudioSourceNode
ます。x秒後に再生されるオーディオをサンプリングして分析する方法はありますか?
python - オーディオ周波数分析でフーリエ変換結果を理解する方法
私はPythonでオーディオ分析を行っています。私の最終目標は、 のような周波数とそれぞれのボリュームのリストを取得することです{ frequency : volume (0.0 - 1.0) }
。
と の間の値を持つフレームのリストとしてオーディオ データが-1.0
あり+1.0
ます。このリストで numpy のフーリエ変換を使用しました — numpy.fftpack.fft()
. しかし、結果のデータは私には意味がありません。
フーリエ変換が時間領域から周波数領域に変換されることは理解していますが、数学的にどのように機能するかはわかりません。そのため、結果がよくわかりません。
numpy.fftpack.fft()
返されるリストの値は何を意味しますか? それをどのように扱う/解釈するのですか?- 上記のようにリストに対して実行されるフーリエ変換の最大値/最小値は何でしょうか?
- 形式で辞書の最終目標を達成するにはどうすればよい
{ frequency : volume (0.0 - 1.0) }
ですか?
ありがとうございました。フーリエ変換についての私の理解が不足していて、あなたが顔をしかめた場合は申し訳ありません。
ios - 音量とピッチを取得するための iOS でのオーディオ処理
iOS7 でリアルタイム オーディオ アナライザーを作成しようとしています。私が取得しようとしているのは、iPod Touch Gen 5 のネイティブ マイクからの音量とピッチであり、タイムスタンプと共に CSV に書き込みます。それを 7 チャンネルに分割し、8Hz でサンプリングしたいと思います。たくさんのドキュメントとコード サンプルを見てきましたが、何も動作しません。
私は今、簡単なことをゼロから始めようとしていますが、上記のことを達成する方法を概説しているようには思えません。
ごく最近、私はAVAudioSessionCategoryAudioProcessing
それを信号処理に使用できるようにしようと試みましたが、音声セッションのドキュメントでは、自動化された信号処理のみが可能であり、音声またはビデオ チャット モードでのみ可能であることが示唆されています。
Audio Session で探しているものを簡単に取得する方法はありますか?
python - Twilio を使用した留守番電話検出 (AMD) ..しかし、事後
問題
着信コールが人またはマシンによって応答されたかどうかを検出したいと考えています。
詳細
Twilioを使用しています。Twilio にはこの機能があります。ただし、システム内での実装方法は、私のユースケースには適していないようです。
Twilio は、留守番電話検出を使用して通話の流れを制御します。このため、Twilio は通話の音声を分析して留守番電話かどうかを確認するために、通話が接続されてから数秒待機します。コールを遅延させてこの分析を実行するまで、コールの接続を続行しません。
私のユースケースの場合。コールが人または機械によって応答された天候は、コール フローに影響を与えません... したがって、遅延は必要ありません。後で必要になる統計にのみ影響します。つまり、この場合、「私が電話に出るためにお金を払っている人は、電話に出られずにボイスメールに行くのではなく、実際に電話に出る頻度はどれくらいですか?」
すべての着信コールは電話に転送されます。普段は携帯。
質問
Twilio を使用して遅延なく通話が人または機械によって応答されたことを検出する方法はありますか?
そうでない場合、同じ目的を達成するために使用できる、私が考えたことのない別のパターンはありますか? (不在着信ではなく、従業員が電話に出る頻度を検出するため)
その他検討したこと
- 携帯電話の呼び出し回数を増やしてから、Twilio が携帯電話プロバイダーのボイス メールの代わりにボイス メールを受信できるようにします。
- このソリューションの問題点は、多くの携帯電話プロバイダーが、ボイス メールが応答するまでの電話の呼び出し回数を変更できないことです。さらに難しいのは、リングの数が設定されていないことです。携帯電話会社が電話を見つけるのに多かれ少なかれ時間がかかる場合があり、これは電話がボイス メールに送られる前に電話が鳴る時間に影響します。
- 自分のアプリケーション (Python) 内に留守番電話検出を実装する
- これはおそらく実行可能な代替手段です。ここでの問題は、Python を使用して音声ファイルを分析し、人や機械が拾ったように聞こえるかどうかを確認する方法についてほとんど知らないことです。