犬の吠え声を録音して保存し、さまざまな種類の吠え声(警告吠え声、泣き声吠え声など)を含むいくつかのファイルと比較したいと思います。
一致させるために、どのようにその比較を行うことができますか?このタイプのアプリで従うべきプロセスは何ですか?
ヒントをありがとう。
犬の吠え声を録音して保存し、さまざまな種類の吠え声(警告吠え声、泣き声吠え声など)を含むいくつかのファイルと比較したいと思います。
一致させるために、どのようにその比較を行うことができますか?このタイプのアプリで従うべきプロセスは何ですか?
ヒントをありがとう。
あなたの問題に対する簡単な答えはありません。ただし、初心者の場合は、オーディオフィンガープリントがどのように機能するかを調べることができます。この論文は、shazamの作成者によって書かれた素晴らしいスタートです。
http://www.ee.columbia.edu/~dpwe/papers/Wang03-shazam.pdf
そのアプローチが犬の吠えにどれほどうまくいくかはわかりませんが、役立つと思われる概念がいくつかあります。
調べるべきもう1つのことは、FFTがどのように機能するかです。これは、FFTを使用する1つの方法であるピッチトラッキング用に作成したコードを使用したチュートリアルです。あなたは、トーンとピッチが特定の犬のフォルマント構造とどのように相互作用するかをもっと見ています。したがって、導出したいパラメータには、基本ピッチ(単独で、他の種類の樹皮と泣き言を区別するのに十分な場合があります)、および樹皮がどれほど攻撃的であるかを識別するのに役立つ基本波と高調波の比率が含まれる場合があります(Iここで少し推測しています):
http://blog.bjornroche.com/2012/07/frequency-detection-using-fft-aka-pitch.html
最後に、いくつかの重複があるため、基本的な音声認識と音声処理について調査することをお勧めします。ウィキペディアはおそらくあなたが始めるのに十分でしょう。
編集:ああ、また、比較に使用するいくつかのパラメーターを特定したら、複数のパラメーターを複数のパラメーターを持つサウンドのデータベースと比較する方法が必要になります。shazamの記事のテクニックはうまくいかないと思います。試すことができることの1つは、ロジスティック回帰です。他のオプションもありますが、これがおそらく最も簡単です。
GoogleのオープンソースlibmusicgAPIをチェックします:http ://code.google.com/p/musicg/
これはJavaなので、Androidで動作し、2つのオーディオファイルの類似度メトリックを提供します。