2 つのオーディオ間の何らかの距離測定値を取得したいと考えています。たとえば、動物の鳴き声と、その動物をまねた人間の鳴き声を比較して、その音がどれだけ似ているかのスコアを返したいとします。
難しい問題のようです。それにアプローチする最良の方法は何ですか?オーディオ信号からいくつかの特徴を抽出し、それらの特徴に対してユークリッド距離またはコサイン類似度 (またはそのようなもの) を実行することを考えていました。抽出が容易で、音の知覚上の違いを判断するのに役立つのはどのような特徴でしょうか?
(どこかで Shazam がハッシュを使用しているのを見ましたが、それは別の問題です。なぜなら、比較されている 2 つのオーディオは基本的に同じですが、一方にはより多くのノイズがあるからです。ここでは、2 つのオーディオは同じではなく、単に知覚的に違います。似ている。)