4

ビデオに音楽が含まれていることを検出するC#アプリを作成しようとしています。必要な形式で、オーディオ検索を取得できます。しかし、私は音楽の検出でレンガの壁にぶつかりました。

オーディオフィンガープリントとそれをC#/任意の言語で行う方法についての投稿がたくさんあります。しかし、私は音楽が映画の中で発生するラフなイン/アウト時間を望んでいます。私は音楽が何であるかは気にしません。

音楽が指紋データベースに存在する可能性はほとんどありません。したがって、完全に計算による分析になる可能性があります。

賢いアイデアはありますか?それとも、ビート検出アルゴリズムを実装して、それを1つずつ処理するのが最善でしょうか。次に、イン/アウトポイントを推定しますか?

4

3 に答える 3

4

「音楽」を他のすべてのオーディオ/サウンドと明確に区​​別するために私が考えることができるのは2つだけです。

  1. メーター:実質的にすべての作曲された音楽にはメーターがあります。理論的には、これはFFTで検出できるはずですが、apprxの周波数範囲を使用します。0.25hzから10hz(通常の20hz-20Khzの代わりに)。実際には?わかりませんが、試してみる価値はあるようです。

  2. 調律:プロの歌手の声(音楽的に伴奏される場合)を含むほとんどすべてのプロの音楽に共通することですが、他の音には共通しないことは、すべてが12音の平均律の同じ「調律」になることです。言い換えれば、それらの周波数は常に2 ^(1/12)の正確な倍数で区切られます。チューニングが確立されると、これらのステップの間のギャップに入ることがなくなります。人間の声を含む通常の音はスペクトル全体に広がりますが、音楽はほとんどの場合、スケーリングされた音の+/-10セント以内にあります。

方法#1は不愉快です、誰かがそれを試したことがあるかどうかはわかりません。

しかし、#2は確かです。これは、オーディオスペクトラムアナライザで実際に確認できますが、FFTは非常に高い識別力(オクターブあたり少なくとも36目盛り)を備えている必要があります。ただし、次のようないくつかの問題があります。

  • 音楽と他の同時サウンド/ノイズを区別する
  • ギターやバイオリンなどの弦楽器は、音符の調子が狂うことがよくあります。
  • トロンボーンと伴奏のない人間の声。音符間を「スライド」したり、和音にイコールテンパーの代わりにジャストテンパーを使用したりできます。
  • 映画のさまざまな場所で「曲」が何であるかをプログラムで確立する(必ずしも絶対的なものではなく、1つの音楽の中で安定しているだけです)
  • 倍音:音符は通常、単純な正弦波以上のものです。つまり、そこには多くの倍音周波数が混在しています。倍音はスケールのように指数関数的ではなく、整数の倍数であるため、ベースノートと一致しません。幸いなことに、倍音はほとんどの場合ベースノートよりも振幅が小さいため、「ピークを探す」だけでよいはずです。

まあ、それらは私の「賢い」アイデアです。今では実装のほんの小さな問題です...;-)

于 2013-01-03T16:42:49.000 に答える
0

「MicrosoftExpressionEncoder」を使用して、ビデオとオーディオを操作できます

于 2013-01-03T16:17:20.760 に答える
0

OPの問題は次のように要約できます。

ビデオの一般化されたオーディオストリームで、「音楽」と「その他すべて」を検出してみてください。

「音楽」が指紋データベースに存在する可能性が低い場合。

そして、この文脈における「他のすべて」には以下が含まれなければなりません。

  1. スピーチ
  2. 沈黙
  3. 合成音
  4. フォーリーサウンド(爆発、銃声、足音など)

また、一般化されたビデオのオーディオサウンドトラックは、エコー、リバーブ、マルチチャネルパンなどで高度に処理されていると想定する必要があります。

一般的なビデオの場合、上記のすべてのオーディオ要素が最終的なオーディオにミックスされ、問題の領域が非常に大きくなります。

これは非常に困難な問題であり、単純で堅牢な解決策がない可能性があります。

この前提をサポートするために、未知の音楽サンプルが分類器トレーニングセットのメンバーである一般的な音楽分類器(MuCLASと呼びます)は、トレーニングセットの作成に多額の費用がかかるため、非常に難しい問題です。分類子インデックスの調整と作成。

ただし、OPの未知のデータセットのエントロピーがはるかに高いため、OPの問題ドメインはMuCLAS問題ドメインよりもはるかに大きくなります。これは、MuCLASと比較して、はるかに複雑でコストがかかることを意味します。

上記の前提に対する別の裏付けとなる議論は、一般的な音声認識の最先端技術は、OPのデータセットの暗黙のエントロピーよりも、未知のデータセットのエントロピーがはるかに低いことを前提とし、主張して​​いるということです。

また、音声認識は、自律型パターン認識の一般的な分野で最も資金が豊富な問題の1つです。

于 2013-02-11T00:27:41.917 に答える