classification - 音楽フィンガープリントはどのように機能しますか（ShazamやLala.comなどのサイトの場合）？

Question

私の大規模な（120GB）音楽コレクションには多くの重複曲が含まれており、重複を検出することを期待してトラックのフィンガープリントを作成しようとしています。そして、私はCS専攻なので、そこで何が行われているのか非常に興味がありますか？ShazamやLala.comのようなものほど正確なものはありません。彼らはどのようにトラックを「ハッシュ」しますか？すべてのファイル（26,000ファイル）で標準のMD5ハッシュを実行しましたが、異なるトラックで何百もの等しいハッシュが見つかったため、機能しません。

Lala.comは、Shazamとは異なり、完全なファイルで動作するため、より興味がありますが、どちらも同様の手法を使用していると思います。音楽の一意の識別子を生成する方法を誰かが説明できますか？

score 10 · Accepted Answer

オーディオフィンガープリントに関する独創的な論文は、2002-03年のHaitsmaとKalkerによる研究です。オーディオのフレームごとに、前処理（時間フレームと周波数帯域間の差）を行ってから、フレームのスペクトルの2値化バージョンを保存します。

この手順により、堅牢性が追加されます。信号全体が時間的にシフトしている場合でも、それは機能します（少なくとも、パフォーマンス低下の下限を導き出すことができます）。それは環境ノイズに対してかなり頑強です。発足以来、低レベルの音楽の類似性に関する多くの論文があり、単一の答えはありません。

完全に同一のファイルがありますか？つまり、信号は時間調整され、ビット深度は同じで、サンプリングレートは同じですか？次に、MD5のようなハッシュが機能するはずだと思います。ただし、これらのパラメーターのいずれかが変更されると、ハッシュも変更されます。このような場合は、前述のような手順の方が適しています。

オンラインで無料で利用できるISMIR議事録をご覧ください。楽しいもの。http://www.ismir.net/

score 5 · Accepted Answer

音響指紋のアルゴリズムはたくさんあります。より人気のあるもののいくつかは次のとおりです。

実際、libfooIdはオープンソースなので、google-codeでそのコードをチェックできます!!

score 3 · Accepted Answer

ウィキペディアの音響指紋ページをご覧ください。いくつかの論文への参照と、実装へのリンク（オープンソースのfdmfを含む）があります。

score 0 · Accepted Answer

さらに調査した後（これは決定的なものではありませんが！）、MusicBrainz.orgのwikiで、彼らが使用しているアプローチのいくつかを詳しく説明しています。

http://musicbrainz.org/doc/Audio_Fingerprint

http://musicbrainz.org/doc/How_PUIDs_Work

classification - 音楽フィンガープリントはどのように機能しますか（ShazamやLala.comなどのサイトの場合）？

4 に答える 4

Related

Reference