問題タブ [audio-fingerprinting]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
audio - オーディオ指紋の局所性鋭敏型ハッシュ
私はオーディオフィンガープリントシステムに取り組んでおり、最近いくつかの論文と調査を行いました。特にこのページ:c#AudioFingerprintingとLocality Sensitive Hashing
これで、32ミリ秒のオーディオごとに一連のフィンガープリントを取得しました。私がやりたいのは、LSHまたは他の類似性保存方法を使用して、これらの個々のフィンガープリントを(それらのシーケンスではなく)ハッシュすることです。LSHについて私が理解したことから、LSHは多次元ベクトルで機能し、ハミング空間で比較できるバイナリ文字列を生成します。
ここでの私の問題は、私が持っている指紋が多次元ではないということです。それらは単一の長整数です。LSHを使用してこれらをハッシュするにはどうすればよいですか?一次元スカラーを(類似性を維持する方法で)ハッシュする方法はありますか?
java - Java から Acoustid (Chromaprint) を取得して mp3/m4a/etc を識別する方法
Java アプリケーションで acoustid (http://acoustid.org/chromaprint) を使用できた人はいますか? クロマプリント clib へのアクセスは簡単なはずですが、オーディオ ファイルだけを渡すことはできません。生の非圧縮オーディオ データが必要です。
xuggler を使用して圧縮されていないオーディオを取得しようとしましたが、どこにも到達しませんでした。基本的に、mp3/m4a/etc のようなエンコードされたファイルから生のオーディオを取得する方法がわかりません。
誰かがこれを機能させることができましたか? コードを共有してくれる人はいますか?
ios - エコープリントが単一の曲を認識しない
Echoprint は、電話またはコンピューターで音声を「聞き取り」、それがどの曲かを判断します。これは非常に高速で精度が高いため、非常にノイズの多いオリジナルのバージョンや、外部ソースからの干渉が多いモバイル デバイスで作成された録音を識別できます。
Web サイトで提供されている iOS の例をコンパイルしました。ここまでは順調ですね。悲しいことに、Echoprint は iPhone のマイクを介してどの曲も認識できませんでした (録音時間は最大 1 分です)。
一方で、iPhone のメディア ライブラリから直接「アップロード」することで曲を認識することができました。
何か考えはありますか、何が問題なのですか?
python - echoprint - サービス Solr を停止すると、データベースが失われます
サービスとtt solrを正しく停止するためにできること。PC を再起動してからサービスを起動しますが、曲の検証を実行すると、データベースが破損しているかのようなメッセージが表示されます。データベースが破損していないのに、曲の後に実行してテストするためにサービスを閉じる正しい方法は何だろうか。ご挨拶と感謝。
- tts を起動 /usr/local/tokyotyrant-1.1.33/bin/ttservercd echoprint-server/solr/solr
- java -Dsolr.solr.home=/home/user01/echoprint-server/solr/solr/solr/ -Djava.awt.headless=true -DSTOP.PORT=8079 -DSTOP.KEY=mykey -jar start.jar
- 新しい曲を取り込む
- Solr java -DSTOP.PORT=8079 -DSTOP.KEY=mykey -jar start.jar --stop を停止します
現在、サービスを開始して、データベースにある曲を作成したい場合、エラーが表示されます。
トレースバック (最新の呼び出しが最後): ファイル "lookup.py"、51 行目、ルックアップ (sys.argv [1]) ファイル "lookup.py"、35 行目、ルックアップ結果 = fp.best_match_for_query (decoded) ファイル " .. / API / fp.py "、194 行目、best_match_for_query get_tyrant tcodes = (). multi_get (trackids) File".. / API / pytyrant.py ", line 296, in multi_get raise KeyError (" Missing a result, unusable response in 1.1.10 ") KeyError: 'Missing a result, unusable response in 1.1.10 '
情報を失うことなくサービスを開始および終了するにはどうすればよいですか?
android - Android での音声フィンガープリンティング
私は、音声認識を使用して arduino ロボットを制御するための Android プロジェクトに取り組んでいます。オフラインの音声認識ユニットで数語だけを認識させたいと思っていました。そのため、目的のためにオーディオフィンガープリンティングを実装することを考えました。とにかく、いくつかの簡単な単語を認識するためにこれを使用できますか.???
c++ - カスタム音声コマンドの作成(GNU / Linux)
個人的なプロジェクトのためのアドバイスを探しています。
カスタマイズされた音声コマンドを作成するためのソフトウェアを作成しようとしています。目標は、ユーザー/私がコマンド/マクロを定義するためのオーディオデータ(2/3秒)を記録できるようにすることです。次に、ユーザーが話す(同じ音声データを録音する)と、コマンド/マクロが実行されます。ソフトウェアは、低コストのコンピューター(RaspberryPiなど)で1秒未満の処理時間でコマンドを検出できる必要があります。
私はすでに2つの方法で検索しました:-音声認識(CMU-Sphinx、Julius、simon):優れたオープンソースソリューションがありますが、多くの場合、大きなデータベースファイルが必要であり、音声認識は実際には私がやろうとしていることではありません。音声認識は、小さな機能には電力を消費しすぎる可能性があります。-オーディオ指紋(Chromaprint-> http://acoustid.org/chromaprint):それは私が探しているものとほぼ同じようです。原則は、生のオーディオデータからフィンガープリントを作成し、フィンガープリントを比較して、それらが同一であるかどうかを判断することです。ただし、この種のソフトウェア/ライブラリは、曲の識別用に設計されているようです(スマートフォンの有名なソフトウェアのように):私は優れた「コンパレータ」を構成しようとしていますが、うまくいかないと思います。
専用のソフトウェアやコードの一部が似たようなことをしていることを知っていますか?
任意の提案をいただければ幸いです。
web-services - MusicbrainzでAcoustIDを検索する
MuscibrainzはacoustIDフィンガープリントを提供しています。
ただし、それらを直接検索する可能性はありません(PUIDまたはエコープリントで可能であるように)
私は何かが足りないのですか?
acoustid.orgは私が欲しい情報を提供しますが、AcoustidWebServiceとしては提供しません。
例:指紋が与えられた 場合453a8e75-ef90-4f31-a2b2-84494219bd3b 次のページで提供される情報が必要です:http: //acoustid.org/track/453a8e75-ef90-4f31-a2b2-84494219bd3b
(補足:指紋照合プロセスには興味がありません。特定のacoustIDを持つすべてのエントリが必要です)
ios - iOSでのエコープリントのリンカーエラー
過去3か月の曲検索にechoprintAPIを使用しています。しかし、突然それは私に以下のエラーを与え始めました。そのAPIをプロジェクトに追加しているときに、すでに多くの問題に直面しています。今では、リンカーエラーが発生し始めています。以前は私のために働いていました。このようなエラー:
"Codegen :: Codegen(float const *、unsigned int、int)"、参照元:File.oの_GetPCMFromFile
clang:エラー:リンカーコマンドが終了コード1で失敗しました(呼び出しを確認するには-vを使用してください)
ld:アーキテクチャi386のシンボルが見つかりません
ld:警告:オプション'-LL / Users / prajaktakulkarni / Downloads / echoprint-codegen-4.12 2 / src / echoprint-codegen-ios / build / Release-iphoneos'のディレクトリが見つかりませんld:警告:ファイル/ Users/prajaktakulkarniを無視します/Documents/Instajam/libechoprint-codegen-ios.a、ファイル/Users/prajaktakulkarni/Documents/Instajam/libechoprint-codegen-ios.aに必要なアーキテクチャi386がありません(2スライス)アーキテクチャi386の未定義のシンボル: "Codegen :: Codegen (float const *、unsigned int、int) "、参照元:File.o ldの_GetPCMFromFile:アーキテクチャi386 clangのシンボルが見つかりません:エラー:リンカーコマンドが終了コード1で失敗しました(-vを使用して呼び出しを確認してください)
solr - Python を使用して Echoprint Api のデータベースを取得すると、エラーが発生します
Echoprint API の使用を開始しようとしています。Echoprint サーバーをインストールして実行し、Echoprint API のデータベースを取得するコマンドを実行します。
そして私が得ているエラーログは
このエラーに直面している理由と、完全なデータベースを取得できるようにエラーを削除する方法を教えてください。
audio - フィードするサンプル数またはフレーム数を特定するために PCM データをトリミングする方法は?
libsamplerate (次の構造体を埋める必要があるオーディオデータをダウンサンプリングするためのライブラリ) をフィードしたい:
呼び出し元が入力する必要があるこの構造体のフィールドは次のとおりです。
この構造体を埋めるために、data_in がありますが、フレーム カウントがわからないため、input_frames を定義できません。PCM バイト ストリームをトリミングする簡単な方法はありますか? したがって、正しいフレーム数でもこの関数に入力できます。(したがって、この質問はlibsamplerateとは直接関係ありません)