問題タブ [sound-recognition]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
3404 参照

c# - wavファイルからフレーム番号とフレームサイズを取得する方法

私は現在、wav ファイルを入力として EPCP を使用したコード認識に関する論文を作成していますが、現在、単一の wav ファイルのフレーム数とフレーム サイズを決定することに行き詰まっています。NAudio ライブラリの hammingwindow 関数のパラメータとしてこれらのデータが必要です

利用可能なすべての wav ヘッダーを取得しましたが、フレーム数とフレーム サイズを取得する方法がわかりません。与えられたヘッダデータから計算できますか? それとも別の方法がありますか?

0 投票する
1 に答える
2146 参照

c# - 波信号をフレームに分割する方法

コード認識に関するプロジェクトに取り組んでいます。どなたかの日記を参考にしていますが、DSPの分野についてはまだほとんど把握できていません。彼女の参考文献では、最初に wav ファイルからの信号をフレーム数に分割する必要があります。私の場合、フレームごとに 2866 サンプルで、各フレームを 65 ミリ秒に分割する必要があります。

信号をフレームに分割する方法を検索しましたが、理解できるほど明確ではありません。これまでのところ、これらは WavProcessing クラスの私のコードの一部です:

C# で信号をフレームごとに 65 ミリ秒に分割する方法がまだわかりません。FileStream を分割してフレームに分割し、配列に保存する必要がありますか? それとも何か?

0 投票する
1 に答える
2021 参照

c# - 完全なデータを返さずに、WAV ファイルから振幅の配列を取得する

コード検出に関する論文に取り組んでいます。苦労した結果、私の問題の根本は、C# ベースのプログラムを使用して wav ファイルの振幅を取得することにあることがわかりました。

このコードを使用して振幅を取得しました。

コードは最初は問題なく動作しました。コード検出プログラムでもある Delphi ベースのプログラムと比較しました。しかし、私が気付かなかったのは、私のコードは実際には振幅の半分の配列しか取得していないということです。

例: Chord C の wav ファイルを C# プログラムにロードすると、次のような振幅の配列が得られます。

361043 番目の配列を開始すると、ゼロしか返されないことがわかります...これは、完全なストリーム サイズ (722128) の約半分です。

一方、誰かの Delphi プログラム (私はこれを参照として使用しました) では、そのコードは次のようになります。

次のような振幅の完全な配列 (同じ wav ファイル) を返します。

その Delphi プログラムでは、振幅の完全な配列が返され、次の計算で正しい値が得られます。

0 投票する
1 に答える
219 参照

ruby - Rubyで曲のタイトルとアーティストを探す

未知のファイルから、タイトルとアーティストを返すことでどの音楽が生成されるかを発見するための興味深い宝石を見つけました:https ://github.com/tenderlove/earworm

事実、最後のコミットは4年前であり、使用されているWebサイトは機能していません...

誰かがこの問題の別の解決策を知っていますか?別の宝石または別のスニペット?

0 投票する
1 に答える
1422 参照

java - Web での音声認識

マイクが特定の音をキャッチしたときに何かをする必要がある Web ページを作成しています。私はたくさん検索し、このリンクを見つけました:

音を認識してアクションを実行するプログラムを作成する

私は2つのことにこだわっています:

  1. Web ページまたは JavaScript を介して Java ベースの音声認識エンジンを使用する方法
  2. 任意のレコグナイザーを使用して 2 つの音 (1 つはマイクから、もう 1 つは保存されたファイルから) を一致させる方法

音声認識にはSphinx-4を使用しています。

0 投票する
1 に答える
255 参照

phonetics - コンピューターで生成された音声と人間の声の音の類似性

ふりがなを使って2つのサウンドファイルを比較するアルゴリズムを探しています。ある種のスコアを評価したい(例:0:類似性なし、100:同じ音)。そこで、Audacityに「こんにちは」と言って生成され録音された人間の声をロードし(私は知っています、それはそれほど専門的ではありません...)、波を見ました。

https://dl.dropbox.com/s/p8o8tpsayo9xr14/hello.png(残念ながら、画像を埋め込むことはできません)

どちらも完全に同じように聞こえますが、波はそれほど一致していません。

これらの2つの波の間の類似性を検出し、言及されたスコアを計算する方法はありますか?

0 投票する
1 に答える
4757 参照

algorithm - Shazam / サウンドハウンドはどのように機能しますか?

シャザムやサウンドハウンドがどのように機能するのかに興味があります。

どのようにして音声を録音し、一致する指紋のデータベースと非常に似ている指紋を作成するのでしょうか?

C/C++ でいくつかのソフトウェアの作成を開始しようとしていますが、使用するライブラリがわかりません。Microsoft の Speech SDK がいくつかあります。音声を分析して再生するプロセスをどこから「理解」し始めるか、いくつか提案はありませんか?

あなたが共有するすべてのヒントやアイデアに感謝します:]

0 投票する
2 に答える
1985 参照

ios - iOS 7 でサウンド認識?

誕生日のろうそくを吹き消す音に反応するアプリを作りたいです。これはそれ自体が音声認識ではなく (その音は英語の単語ではありません)、OpenEars の非常に親切な Halle は、そのフレームワークを使用することは不可能であると私に言いました。(ハレさん、素早い対応ありがとうございます!)

アプリが後でそれを認識できるように、アプリに音を「教える」方法はありますか?

これについてどうすればいいですか?それは実行可能ですか?私は頭がおかしいのでしょうか、それとも自分が思っているよりもはるかに難しい問題に取り組んでいますか? 私の宿題は何ですか?

0 投票する
1 に答える
850 参照

android - オーディオ データ バイトの意味は何ですか? アンドロイド

Android アプリケーションで叫び声と笛の検出器を作成しようとしています。ここで musicg Android ライブラリを使用して、ユーザーの口笛を検出できるようになりました。利用可能なライブラリがないため、悲鳴検出器を自分で実装する必要があります。

musicg では、オーディオ データを読み取り、バイトのバッファーに格納します。ホイッスル検出器の入力としてバッファを使用します。これらのバイトを LogCat に出力して、これらのバイトがどのように見えるかを理解しようとしています。ただし、それらが何であるか、musicgライブラリがこの入力を使用してユーザーがいつ口笛を吹いているかを検出する方法についてはわかりません。

オーディオ データ バイトは次のようになります。buffer[i] + "" を使用してそれらを印刷します

では、この入力を使用してユーザーの口笛を検出する方法を教えてください。

アイデアを教えてください

ありがとうございました