ふりがなを使って2つのサウンドファイルを比較するアルゴリズムを探しています。ある種のスコアを評価したい(例:0:類似性なし、100:同じ音)。そこで、Audacityに「こんにちは」と言って生成され録音された人間の声をロードし(私は知っています、それはそれほど専門的ではありません...)、波を見ました。
https://dl.dropbox.com/s/p8o8tpsayo9xr14/hello.png(残念ながら、画像を埋め込むことはできません)
どちらも完全に同じように聞こえますが、波はそれほど一致していません。
これらの2つの波の間の類似性を検出し、言及されたスコアを計算する方法はありますか?