OPの問題は次のように要約できます。
ビデオの一般化されたオーディオストリームで、「音楽」と「その他すべて」を検出してみてください。
「音楽」が指紋データベースに存在する可能性が低い場合。
そして、この文脈における「他のすべて」には以下が含まれなければなりません。
- スピーチ
- 沈黙
- 合成音
- フォーリーサウンド(爆発、銃声、足音など)
また、一般化されたビデオのオーディオサウンドトラックは、エコー、リバーブ、マルチチャネルパンなどで高度に処理されていると想定する必要があります。
一般的なビデオの場合、上記のすべてのオーディオ要素が最終的なオーディオにミックスされ、問題の領域が非常に大きくなります。
これは非常に困難な問題であり、単純で堅牢な解決策がない可能性があります。
この前提をサポートするために、未知の音楽サンプルが分類器トレーニングセットのメンバーである一般的な音楽分類器(MuCLASと呼びます)は、トレーニングセットの作成に多額の費用がかかるため、非常に難しい問題です。分類子インデックスの調整と作成。
ただし、OPの未知のデータセットのエントロピーがはるかに高いため、OPの問題ドメインはMuCLAS問題ドメインよりもはるかに大きくなります。これは、MuCLASと比較して、はるかに複雑でコストがかかることを意味します。
上記の前提に対する別の裏付けとなる議論は、一般的な音声認識の最先端技術は、OPのデータセットの暗黙のエントロピーよりも、未知のデータセットのエントロピーがはるかに低いことを前提とし、主張しているということです。
また、音声認識は、自律型パターン認識の一般的な分野で最も資金が豊富な問題の1つです。