6

問題は、iOS アプリケーションで 2 つのオーディオがどの程度類似しているかを測定するオープン ソースまたは単純な実装を探すことです。

簡単に言えば、オーディオは 1 次元ベクトルで表すことができ、1 次元ベクトル間の距離を計算します。ただし、オーディオの長さが異なるため、前処理などが必要です。

ここで手がかりを得るのを楽しみにしています、ありがとう

4

1 に答える 1

6

可変長の 2 つのシーケンス間の類似性は、DTW を使用して効率的に計算できます。

http://en.wikipedia.org/wiki/Dynamic_time_warping

このアルゴリズムは自分で簡単に実装でき、Wiki ページにリンクされている既存の実装がかなり多くあります。

簡単に言えば、オーディオは 1 次元ベクトルで表すことができます。

オーディオをフレームに分割し、フレームごとに異なる周波数帯域に対応する値 (機能) の配列を持つ機能の 2-D ベクトルに変換することは合理的です。音楽を扱う場合は、フレームごとに FFT を使用することをお勧めします。スピーチの場合は、メル周波数ケプストラムを計算することをお勧めします。

繰り返しになりますが、メル周波数機能には多くの既存のライブラリを使用できます。そのうちの 1 つは、音声認識ツールキットCMUSphinx です。

于 2013-03-27T11:05:25.920 に答える