同じ種の鳥の48000のサンプルレートで約100のwavオーディオファイルがあり、それらの間の類似性を測定したいと思います。私はwaveファイルから始めていますが、画像の操作については(ごくわずかに)知っているので、分析はスペクトログラム画像で行われると思います。私は異なる日のいくつかの鳥のいくつかのサンプルを持っています。
データの例をいくつか示します(ラベルのない軸についてはお詫びします。xはサンプル、yは線形周波数に10,000 Hzのようなものを掛けたものです):
これらの鳥のさえずりは明らかに「単語」で発生します。これを比較する必要があります。類似した単語の違いと、さまざまな単語の頻度と順序の両方。
蝉の鳴き声を取り除こうと思っています。蝉の鳴き声はかなり一定の周波数で、位相が一致する傾向があるので、それほど難しくはありません。
いくつかのしきい値処理が役立つようです。
Pandora Music Genome Projectのように、既存の文献のほとんどは、曲の特性に基づいた手動分類を使用していると言われています。私はエコーネストのようになりたいです; 自動分類を使用します。更新:多くの人がこれを研究しています。
私の質問は、この分析にどのツールを使用すべきかということです。する必要がある:
- 一般的なノイズをフィルタリング/しきい値設定し、音楽を維持します
- セミのような特定のノイズを除去します
- 鳥のさえずりのフレーズ、音節、および/またはメモを分割して分類します
- パーツ間の相違/類似性の測定値を作成します。鳥の間の違いを拾い上げ、同じ鳥の異なる呼び出しの間の違いを最小限に抑える何か
私が選んだ武器はnumpy/scipyですが、openCVのようなものがここで役立つかもしれませんか?
編集:いくつかの調査とスティーブの有益な回答の後に、私の用語を更新し、アプローチを言い換えました。