私の大規模な(120GB)音楽コレクションには多くの重複曲が含まれており、重複を検出することを期待してトラックのフィンガープリントを作成しようとしています。そして、私はCS専攻なので、そこで何が行われているのか非常に興味がありますか?ShazamやLala.comのようなものほど正確なものはありません。彼らはどのようにトラックを「ハッシュ」しますか?すべてのファイル(26,000ファイル)で標準のMD5ハッシュを実行しましたが、異なるトラックで何百もの等しいハッシュが見つかったため、機能しません。
Lala.comは、Shazamとは異なり、完全なファイルで動作するため、より興味がありますが、どちらも同様の手法を使用していると思います。音楽の一意の識別子を生成する方法を誰かが説明できますか?