問題タブ [audio-fingerprinting]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Java のオーディオ フィンガープリンティング システム
純粋な Javaで実装されている(Android で実行するための)オーディオ フィンガープリンティング システム ( PUIDなど) はありますか?
audio-fingerprinting - Linux用のsongCatcherライブラリについて誰かが何か考えを持っていますか?または「Audio-Ofa-Util-0.04」の使用方法に関するアイデアはありますか?
Linux用のsongCatcherライブラリについて誰かが何か考えを持っていますか?songCatcherは、音響指紋に基づいています。
「Audio-Ofa-Util-0.04」を1つ見つけましたが、使用に問題があります。または誰かが私がその使用法を理解するのを手伝ってくれるなら。例:>オーディオファイルをこのツールに渡すにはどうすればよいですか。
その使用法などのための特定のコマンド。
どんな助けでも大歓迎です。
ありがとう、ボビー
java - オーディオ フィンガープリンティング ライブラリ (java)
Java で書かれたオーディオ フィンガープリンティング ライブラリはありますか? C++ や C# で書かれたlibofaに似ています。
audio - Verizon SongID-どのようにプログラムされていますか?
VerizonのSongIDプログラムに慣れていない人は、VerizonのVCastネットワークからダウンロードできる無料のアプリケーションです。曲の途中で10秒間曲を聴き、このデータを全知のアルゴリズムの獣に送信します。この獣はそれを噛み砕き、すべてのID3タグ(アーティスト、アルバム、曲など)を送り返します。
最初の2つの部分と最後の部分は単純ですが、録音されたサウンドが送信された後の処理中に何が起こりますか?
サウンドファイル(どの形式?)を取り、それを(どのように?何で?)いくつかの重要な識別子(これらは何ですか?波動関数の通常の属性?位相/シフト/振幅など)を解析し、チェックする必要があると思いますデータベースに対して。
これがどのように機能するかについてオンラインで見つけたものはすべて、上記で入力したもののような一般的なものです。
このサービスは、高度なオーディオ指紋技術と大規模な曲のデータベースを組み合わせた高度なオーディオ認識アルゴリズムに基づいています。オーディオファイルをアップロードすると、オーディオエンジンによって分析されます。分析中に、そのオーディオの「指紋」が抽出され、音楽データベースと比較することによって識別されます。この認識プロセスが完了すると、一致する確率を持つ曲に関する情報が画面に表示されます。
language-agnostic - データベース (数百万)、フィンガープリントで重複したビデオ ファイルを見つけますか? パターン認識?
次のシナリオでは:
私は、現在数万のビデオ ファイルのカタログを持つプロジェクトを手に入れました。その数は劇的に増加する予定です。
ただし、それらの多くは重複しています。すべてのビデオ ファイルに意味情報と説明情報を関連付けました。重複をマージして、すべてのファイルでより良い結果を達成したいと考えています。
ここで、データベース内のメタデータにインデックスを付ける何らかの手順が必要です。新しいビデオがカタログに入るたびに、同じデータが計算され、データベース内で照合されます。
問題は、ビデオが完全に複製されていないことです。それらは異なる品質を持つことができ、アンビークロップ、透かし、または続編/前日譚を持つことができます. または、最初および/または最後で切断されます。
残念ながら、比較が良くなればなるほど、CPU とメモリを集中的に使用するようになるため、非常に優雅で高速な比較 (10% の許容範囲のビデオの長さ) で始まり、最終比較で終了するかどうかを決定するいくつかのレイヤーの比較を実装する予定です。それは本当に重複しています(それはコミュニティの投票になります)。
そのため、結果を検証するコミュニティがあるので、ミス率の低い「良い推測」を提供するだけで十分です。
では、私の質問は、どのレイヤーを考えることができますか、またはより良いアプローチがありますか?
メタデータを作成する労力は気にしません。それを行うのに十分なスレーブがあります。比較だけが高速である必要があります。それで、ビデオを100回変換することもできれば...
ここに私の現在のアイデアがあります:
ビデオの長さ (秒)
最初と最後のフレーム画像分析
画像をサムネイル サイズにリサンプリングし、平均 RGB 値を取得してから、このピクセルの色が 0 または 1 で表される平均よりも大きい/小さい場合は、ピクセルごとにシリアル化します。したがって、格納できるバイナリ文字列を取得します。 mysql を実行し、ブール値のビットサム (mysql によって内部的にサポートされています) を実行し、残りの unval ビットをカウントします (内部的にサポートされているため、バイナリ文字列のレーベンシュタイン距離になります)。
- 同じ vbr コーデックを使用した時間の経過に伴うビットレートの展開
まったく同じ設定でビデオを vbr ビデオファイルにトランスコードします。次に、特定の時点でのビットレートを調べます (完了したビデオのパーセンテージまたは絶対秒数..その後、ビデオの一部のみを分析します)。写真と同じもの。ビットレートが平均より大きい場合は 1、それ以外の場合は 0 です。バイナリ文字列を作成して db に保存し、後でレーベンシュタイン距離を計算します。
オーディオ分析(ビデオのビットレートと同様に、時間の経過に伴うビットレートとデシベルの変動)
キーフレーム分析
最初と最後のフレームのように、キーフレームの位置で画像を比較しますか? キーフレームはコーデックと設定に依存するため、ビットレートの計算に使用したのと同じソース ファイルを使用します。
- 時間の経過とともに発色する色
たぶん、画像内の 1 つまたは複数の領域/ピクセルを取り、それらが時間の経過とともにどのように発展するかを見てみましょう。同様に、平均より上/下の変化。黒/白で十分だと思います。
- 最終承認のために提案をユーザーに提示します...
それとも、私は完全に間違った方向に進んでいますか?この問題を抱えているのは私が最初ではないと思いますが、解決策を見つけることができませんでした。
project - オーディオフィンガープリンティングのユニークな (またはセミユニークな) アプリケーションのアイデア
私は最終学年のプロジェクトのために、オーディオ フィンガープリンティング用のユニークな (または半ユニークな) アプリケーションを探している最終学年のコンピューター学部生です。私の最初のアイデアは、オーディオ フィンガープリントを使用して、ユーザーがハミングしている曲を特定するプログラムを作成することでした。しかし、私は検索を行い、誰かがすでにそれを実装していることがわかりました (完全に追加するかもしれません)。私がそれを微調整する方法(まったく新しいものである必要はありません)または同様の分野に沿って何かを導き出す方法についての提案は、非常に高く評価されます。
PSよろしくお願いします。
(PPS 完全な実装を行う必要はありません。コア部分または選択した重要な部分のみ)
c# - オーディオファイルからmusicbrainzトラック情報を取得する方法
オーディオ フィンガープリンティングを使用して、オーディオ ファイル (mp3、wav、wma、ogg など) からMusicBrainzデータベースからトラック情報を取得する方法を教えてください。MusicBrainz Sharp ライブラリを使用していますが、他のライブラリでも問題ありません。
libofa ライブラリを使用する必要があり、MusicBrainz Sharp を使用してオーディオ ファイルから puid を取得できないことがわかりましたが、C# で libofa を使用する方法がわかりません。
どこにも見つからないので、いくつかの例とコード スニペットを示してください。
前もって感謝します!
java - オーディオフィンガープリント用の Java ツールはありますか?
私は 10 年以上にわたって、インテリジェントなフィードバックを備えた言語学習演習を提供する Java アプレットを開発してきました。今、私が切実に必要としているのは、次のように機能するオーディオ フィンガープリント モジュールです。
- 生徒は、単語またはフレーズのリストをマイクに向かって 1 つずつ読むように求められます。
- 次に、学生は、質問に対する正しい答えが、以前に記録された単語またはフレーズの 1 つになる演習を行います。生徒はマイクに向かって答えを言わなければなりません。
- モジュールは、単語とフレーズの元のリストを音声録音し、次に生徒が話した答えを録音する必要があります。
- 演習で生成された音声ファイルと、生徒が最初に録音した音声ファイルを比較し、生徒が最初のリストからどの単語または句を回答で使用したかを判断する必要があります。答えが正しい場合も間違っている場合も、答えが入力され、文字列として比較されたかのように、適切なアクションが実行されます。
このようなものが Java で既に行われていて、私のようなアプレットに組み込むことができることを知っていますか?
web-services - タグの付いていない mp3 を識別するサービス
タグの付いていない mp3 に関する情報を渡し、曲に関する詳細 (アーティスト、アルバム、トラックなど) で応答する、プログラムから呼び出すことができるオープン ソース サービスはありますか? そうでない場合、曲を識別するために使用できる代替手段はありますか?
audio - オープンソースのオーディオパターン認識(フィンガープリント)
「Shazamのような」ソリューションを提供するオープンソースのオーディオフィンガープリントソリューションはありますか?
ShazamはLandmarkdigitalの商用ソリューションを使用していますが、代替の(精度とパフォーマンスが劣っていても)オープンソースソリューションを探しています。
誰かがそのような実装について、あるいは公開された実装されていないアルゴリズムについてさえ知っていますか?