問題タブ [audio-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
vb.net - サウンドサンプルの数学的分析 (数値の配列として)
バイト配列として (vb に) 格納されたサンプルの周波数を見つける必要があります。サンプルは正弦波であり、既知の周波数であるため、確認できます)、しかし数値は少し奇妙で、私の maths-foo は弱いです。値の全範囲 0 ~ 255。数値の 99% は 235 から 245 の範囲にありますが、0 と 1 までの外れ値があり、残りの 1% には 255 までの外れ値があります。これを正規化して外れ値を取り除くにはどうすればよいですか (異なるサンプルで変化する可能性があるため、235-245 間隔を計算します)。次に、ゼロクロッシングを計算して周波数を取得するにはどうすればよいですか? この説明がゴミである場合は申し訳ありません!
audio - Verizon SongID-どのようにプログラムされていますか?
VerizonのSongIDプログラムに慣れていない人は、VerizonのVCastネットワークからダウンロードできる無料のアプリケーションです。曲の途中で10秒間曲を聴き、このデータを全知のアルゴリズムの獣に送信します。この獣はそれを噛み砕き、すべてのID3タグ(アーティスト、アルバム、曲など)を送り返します。
最初の2つの部分と最後の部分は単純ですが、録音されたサウンドが送信された後の処理中に何が起こりますか?
サウンドファイル(どの形式?)を取り、それを(どのように?何で?)いくつかの重要な識別子(これらは何ですか?波動関数の通常の属性?位相/シフト/振幅など)を解析し、チェックする必要があると思いますデータベースに対して。
これがどのように機能するかについてオンラインで見つけたものはすべて、上記で入力したもののような一般的なものです。
このサービスは、高度なオーディオ指紋技術と大規模な曲のデータベースを組み合わせた高度なオーディオ認識アルゴリズムに基づいています。オーディオファイルをアップロードすると、オーディオエンジンによって分析されます。分析中に、そのオーディオの「指紋」が抽出され、音楽データベースと比較することによって識別されます。この認識プロセスが完了すると、一致する確率を持つ曲に関する情報が画面に表示されます。
python - Python 2.6を使用したオーディオファイルの高速スペクトル分析?
私がやりたいのは、与えられたサウンドファイルの200ミリ秒ごとに分析し、特定の周波数範囲の周波数強度値(0から1までのフロート)を後で配列に吐き出すサブルーチンを作成することです。保存する。この値は、オーディオファイルに「ストローブ」することになっているグラフィックの不透明度値として使用されます。
問題は、私はこれまでオーディオ分析に挑戦したことがなく、どこから始めればよいのかわからないということです。これを実現するためにFFTを使用できると考えて、pymediaとscipy / numpyを調べましたが、このデータをどのように操作して目的の結果が得られるかはよくわかりません。pymediaのSpectrAnalyzerクラスに関するドキュメントは事実上存在せず、Webサイトの例は、ライブラリの最新リリースでは実際には機能しません。これは、私の生活を正確に楽にするものではありません。
このプロジェクトを開始するにはどうすればよいですか?どのライブラリを使用すべきかについて、私は完全に途方に暮れています。
c# - バイト配列からのボリューム
私はオーディオ分析は初めてですが、(一見)簡単なタスクを実行する必要があります。16 ビットの録音 (単一チャネル) と 44100 のサンプル レートを含むバイト配列があります。特定の瞬間の音量を取得するための簡単な分析を実行するにはどうすればよいですか? しきい値を計算する必要があるため、特定の振幅 (ボリューム) を超えている場合は true を返し、そうでない場合は false を返す関数です。バイト配列を反復処理してその値を確認できると思いました.255が最も大きいですが、何も録音していなくてもバックグラウンドノイズが入り、配列の一部がいっぱいになっているため、これは機能しないようです255.どんな提案も素晴らしいでしょう。ありがとう
real-time - Corona SDKを使用してリアルタイムのオーディオ分析を行うことはできますか?
簡単なモバイルアプリの開発を始めようと思っています。Corona SDKは、私がおもちゃにしたいアイデアのいくつかに非常によく合っているように見えます。それを使ってリアルタイムのオーディオ分析を行うことは可能かどうか疑問に思っていますか?たとえば、コロナで簡単なギターチューナーを作成できますか?
signal-processing - 楽譜の音声分析
私は現在、楽器を演奏しているソロ ミュージシャンの wav ファイルを分析し、その中の音符を検出するプログラムに取り組んでいます。これを行うために、FFT を実行し、生成されたデータを調べます。目標は、(ある時点で) midi ファイルを作成して楽譜を作成することです。
何が難しいのか、以前に試した人がいるかどうか、調査するのが良いことについて、いくつかの意見を聞きたかっただけです。現時点で私の最大の苦労は、すべての音符が純粋に 1 つの周波数であるとは限らず、和音をまだ検出できないことです。ただの単音。また、検出している音符の間に一時停止が必要なので、1 つが終了し、もう 1 つが開始したことを確認できます。これについてのコメントも大歓迎です!
これは、信号から新しいフレームが入ってくるときに使用するコードです。サンプルで最も支配的な周波数を探します。
python - Pythonを使用してオーディオの「ラウドネス」を測定する
Pythonを使用して、オーディオのラウドネスを計算しようとしています。おそらく、オーディオのピークボリュームを抽出するか、より正確な測定値(RMS?)を使用します。
これを行うための最良の方法は何ですか?私はpyaudioを見てきましたが、それは私が望んでいたことをしていないようでした。見栄えが良かったのはルビーオーディオでした。これは一見sound.abs.max
組み込まれているようです。
入力オーディオは、持続時間が約30秒のさまざまなローカルMP3ファイルから取得されます。
iphone - フォーマットを解凍するための iOS Advanced Audio API
iOS で、ユーザーのオーディオ ストリームを解凍された形式で取得することは可能ですか? たとえば、MP3 はオーディオ解析に使用できる WAV として返されますか? 私は iOS プラットフォームに比較的慣れていないので、古いバージョンの iOS ではこれが不可能だったことを覚えています。iOS 4 がいくつかの高度な API を導入したことを読みましたが、これらのドキュメントやサンプルがどこにあるのかわかりません。
audio - FFT - いつウィンドウ化するか?
ここでさまざまな FFT の質問を見てきましたが、実装の一部で混乱しています。FFT をリアルタイムで実行する代わりに、オフラインで実行したいと考えています。に生データがあるとしましょうfloat[] audio
。サンプリング レートは 44100 であるためaudio[0] to audio[44099]
、1 秒分の音声が含まれます。FFT 関数がウィンドウ処理 (Hanning など) を処理する場合、audio
バッファ全体を一度に関数に入れるだけですか? または、オーディオを 4096 (私のウィンドウ サイズ) のチャンクにカットし、それを FFT に入力して、ウィンドウ機能を実行する必要がありますか?
iphone - ファイル解凍メモリフットプリント
iOS で音声をオフラインで処理したいのですが、メモリ使用量について質問があります。AVAssetReader を使用して MP3 を未加工の PCM データに解凍すると、メモリ フットプリントが膨大になります。では、圧縮解除によってアプリが大量のメモリを使用するようになる場合、mp3 ファイルを処理 (オフライン FFT) するにはどうすればよいでしょうか? どうにかしてストリーミングする必要があると思いますが、iOS でこれを行う方法がわかりません。