「Shazamのような」ソリューションを提供するオープンソースのオーディオフィンガープリントソリューションはありますか?
ShazamはLandmarkdigitalの商用ソリューションを使用していますが、代替の(精度とパフォーマンスが劣っていても)オープンソースソリューションを探しています。
誰かがそのような実装について、あるいは公開された実装されていないアルゴリズムについてさえ知っていますか?
「Shazamのような」ソリューションを提供するオープンソースのオーディオフィンガープリントソリューションはありますか?
ShazamはLandmarkdigitalの商用ソリューションを使用していますが、代替の(精度とパフォーマンスが劣っていても)オープンソースソリューションを探しています。
誰かがそのような実装について、あるいは公開された実装されていないアルゴリズムについてさえ知っていますか?
Shazam、SoundHoundなどの商用オーディオ識別サービスの品質/パフォーマンスを忘れることができますが、いくつかのオープンソースオーディオ認識プロジェクトがあります。また、実行する認識の種類(オーディオファイルのフィンガープリント/タグ付け、リアルタイム識別、OTA(Over-The-Air)認識など)
オープンサース
AcoustID / MusicBrainzオーディオフィンガープリントとメタデータの関連付け(フィンガープリンターとサーバー)を実行するためのツールを提供します。独自の指紋/メタデータサーバーを設置するか、MusicBrainzのサービスを使用できます。オーディオファイルのフィンガープリントと認識に適したソリューションですが、リアルタイムの高性能アプリケーション(OTAなど)には適していません。オーディオストリームモニタリング(ブロードキャストモニタリング)についてもテストしましたが、結果はかなり貧弱でした。
EchoprintはAcoustID(フィンガープリンターおよびサーバー+メタデータ)と同じツールを提供し、オーディオ内のどこからでも取得したスニペットを適切な精度で認識できるため、オーディオストリームの監視にも使用できます(ただし、本格的な商用アプリケーションには使用しません) 。彼らはまた、それがOTAアプリケーションに適していると主張していますが、パフォーマンスは生産用途にはどこにも適していません。
Last.fmフィンガープリントモジュールをオープンソース化していますが、完全にはオープンソースではありません。本格的なソリューションを提供していないため、IDおよびメタデータプロバイダーサービスを照会する必要があります。
.NETで解決策を探している場合は、SoundFingerprintingライブラリを確認してください。
これはオープンソースであり、ウェーブレットを使用したコンテンツフィンガープリントの研究論文の上に構築されています。
アルゴリズムはShazaamのアルゴリズムとは異なりますが、一般的な考え方は似ています。スペクトルから最も顕著な係数を抽出し、それらを使用して後で取得するためのフィンガープリントを作成します。
アルゴリズムの説明はここにあります。
あなたがJAVAライブラリを探しているなら、MusicGを探してください、私は過去のプロジェクトの1つでそれを使用しました、そしてそれはうまく機能しています。 http://code.google.com/p/musicg/