問題タブ [audio-fingerprinting]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 音声指紋照合 - 最も近い一致を見つける
fpcalc を使用して、サウンド クリップからオーディオ フィンガープリントを取得しています。それらは次のようになります。
サウンドを録音して指紋を付けると、次のようになります。
今、データベースを見て、次のようにレーベンシュタイン距離を使用して最も近い一致を見つけます。
私が与えたサンプルとサウンドがうまく一致しないため、良い結果が得られません。
私はこれを正しくやっていますか?より良い指紋ライブラリはありますか? 私はpythonまたはrubyを使用しています..
口笛を鳥の鳴き声に合わせようとしています。
c# - 録音の品質を効率的にチェックする方法
サーバー側のプロセスの 1 つから入ってくるライブの制御されていない録音からのさまざまな wave ファイルがあり、それらのほとんどは全体を通して良好な明瞭な音声を持っています。ただし、文字化けしたり、ノイズが発生したり、音声の音量が十分に大きくない場合があります。C# を使用して録音が「良い」品質と見なされるかどうかを判断する効率的な方法はありますか?
既知の良好な録音のスペクトグラムを取得し、悪い録音のスペクトログラムと比較することを考えましたが、録音の音声は毎回異なるため、うまくいかない可能性があります。Bass.Net や NAudio などのライブラリを調べましたが、オーディオ処理は私の専門分野ではありません。
オーディオ フィンガープリントの比較を試すこともできますが、これがどのように機能するかは完全にはわかりません。誰かが、オーディオ フィンガープリント ハッシュとレーベンシュタイン距離アルゴリズムを使用して 2 つのオーディオ ファイルを比較し、2 つのオーディオ ファイル間の類似度を見つけようとしているのを見ました。オーディオ フィンガープリンティングによって生成されたハッシュが類似のオーディオ ファイル間で類似していない限り、この方法は機能しません。
私が考えたもう 1 つの考えは、ある種の音声認識 API を使用して音声を処理し、音声のトランスクリプトをテキスト ファイルに書き出すことでした。問題は、音声認識があまり正確ではなく、Microsoft の Speech API などの API が、文字化けした録音や雑音が多い録音でも音声を認識しようとする可能性があることです。Nuance の音声認識ソフトウェアのSDKバージョンがあることは知っていましたが、ウェブサイトで SDK の試用版を提供していないようで、まだ SDK を見る機会がありませんでした。
audio - MP3 の各分を個別の WAV にエクスポート
これは間違いなく奇妙な質問ですが、60 分の mp3 ミックスを 60 の個別の 1 分間の wav ファイルに分割して、Echonest などのオーディオ フィンガープリンティング API で使用する方法を探しています。
これは単一のffmpegコマンドで可能ですか、それとも次の値でffmpegを複数回実行する必要がありますか?
-ss は秒単位の開始点です。-t は秒単位の期間です。
speech-recognition - 音声ファイルの類似度の測定方法
2 つの音声オーディオ ファイルがあります。それぞれが電話での会話から録音され、長さが異なります (最初のファイルは 3 秒ですが、2 番目のファイルは 5 秒です)。2 つのファイルの類似性を測定したいと考えています。音声信号のテキスト コンテンツには関心がないことに注意してください (つまり、Speech to Text はありません)。類似性を測定して、スコアまたはパーセンテージを取得するだけです。
オーディオ指紋分析を行うツールはほとんど見つかりませんでしたが、ほとんどすべてが音楽オーディオファイルを対象としており、スピーチ時にうまく機能しないことがわかりました.
c++ - オーディオ録音でさまざまなサウンド/ソースを検出する
UNI プロジェクトで考えたこのアイデアについて、アドバイスが必要です。
オーディオ ファイルを、異なるオーディオ ソースからの異なる「ストリーム」に分割できるかどうか疑問に思っていました。たとえば、オーディオ ファイルを次のように分割します: エンジン ノイズ、電車のノイズ、声、常にそこにあるわけではないさまざまな音など。
必ずしもプログラミング言語からこれを行う必要はありませんが (理想的ですが)、Sound Forge などのサウンド処理ソフトウェアを使用して手動で行うこともできます。ただし、これが可能かどうかを最初に知る必要があります。音声処理については何も知りません。
最初の段階 (音の分離) が完了した後、処理された音の 1 つが別のオーディオ録音に存在するかどうかを判断したいと考えています。目的は音の検出です。(理想的な)例として、車のエンジン音を別のファイルと照合し、オーディオが車のエンジンの録音かどうかを判断します。それほど正確である必要はありません。クラクションのように、一定ではない音を検出していると思います。も大丈夫でしょう。
私はプログラミングの部分を行います。何を探すべきか(ソフトウェア、数学など)についてのいくつかの指針が必要です。私は専門家ではないので、可能であれば、これは本当に興味深いプロジェクトになるでしょう。
ありがとう。