19

同じ種の鳥の48000のサンプルレートで約100のwavオーディオファイルがあり、それらの間の類似性を測定したいと思います。私はwaveファイルから始めていますが、画像の操作については(ごくわずかに)知っているので、分析はスペクトログラム画像で行われると思います。私は異なる日のいくつかの鳥のいくつかのサンプルを持っています。

データの例をいくつか示します(ラベルのない軸についてはお詫びします。xはサンプル、yは線形周波数に10,000 Hzのようなものを掛けたものです): 代替テキスト これらの鳥のさえずりは明らかに「単語」で発生します。これを比較する必要があります。類似した単語の違いと、さまざまな単語の頻度と順序の両方。 代替テキスト

蝉の鳴き声を取り除こうと思っています。蝉の鳴き声はかなり一定の周波数で、位相が一致する傾向があるので、それほど難しくはありません。 代替テキスト

いくつかのしきい値処理が役立つようです。

Pandora Music Genome Projectのように、既存の文献のほとんどは、曲の特性に基づいた手動分類を使用していると言われています。私はエコーネストのようになりたいです; 自動分類を使用します。更新:多くの人がこれを研究しています。

私の質問は、この分析にどのツールを使用すべきかということです。する必要がある:

  • 一般的なノイズをフィルタリング/しきい値設定し、音楽を維持します
  • セミのような特定のノイズを除去します
  • 鳥のさえずりのフレーズ、音節、および/またはメモを分割して分類します
  • パーツ間の相違/類似性の測定値を作成します。鳥の間の違いを拾い上げ、同じ鳥の異なる呼び出しの間の違いを最小限に抑える何か

私が選んだ武器はnumpy/scipyですが、openCVのようなものがここで役立つかもしれませんか?

編集:いくつかの調査とスティーブの有益な回答の後に、私の用語を更新し、アプローチを言い換えました。

4

4 に答える 4

6

コメントするには長すぎるので、これを答えにしなければなりませんでした。

私は基本的にこの分野で働いているので、ある程度の知識があると感じています。明らかに、私の観点からは、画像ではなく音声を使用することをお勧めします。また、特徴抽出としてMFCCを使用することをお勧めします(これは、可聴周波数の特定のサブバンドを要約/特性化する係数と考えることができます[なぜならそれらは])。

GMMは外出先です。

このタスクを実行するには、ラベル付けされた/既知のデータの一部(できれば大量)が必要です。そうでない場合、機械学習を実行するための基礎がありません。

あなたが役に立つと思うかもしれない技術:

「次に、テスト中に、クエリMFCCベクトルをGMMに送信すると、それがどの種であるかがわかります。」

より正確には、各GMMにクエリを送信します(正しく使用している場合、それぞれがその確率分布によって放出される特定の特徴ベクトルの尤度スコア[確率]を提供します)。次に、すべてのGMMから受け取るすべての尤度スコアを比較し、受け取った最高値に基づいて分類します。

UBM

ノイズを「フィルターで除去」するのではなく、UBM(Universal Background Model)を使用してすべてのバックグラウンドノイズ/チャネル歪みを単純にモデル化できます。このモデルは、利用可能なすべてのトレーニングデータ(つまり、各クラスで使用したすべてのトレーニングデータ)を使用してトレーニングされたGMMで構成されています。これを使用して、「尤度比」(Pr [xは特定のモデルによって放出される]/ Pr [xは背景モデル(UBM)によって放出される])を取得して、背景モデルによって説明できるバイアスを取り除くのに役立てることができます。自体。

于 2010-12-21T22:42:31.580 に答える
5

興味深い質問ですが、かなり広いです。鳥の鳴き声の自動識別に関する既存の文献を確認することをお勧めします。(うん、それに取り組んでいる人がたくさんいます。)

この論文(編集:申し訳ありませんが、デッドリンクですが、Dufour et al。2014によるこの章はさらに明確かもしれません)は、最初に試すことをお勧めする基本的な2段階のパターン認識方法を使用します:特徴抽出(論文はMFCCを使用)、次に分類(論文はGMMを使用しています)。入力信号のフレームごとに、MFCCのベクトル(10〜30)を取得します。これらのMFCCベクトルは、対応する鳥種ラベルとともにGMM(またはSVM)をトレーニングするために使用されます。次に、テスト中に、クエリMFCCベクトルをGMMに送信すると、それがどの種であるかがわかります。

音声分類/指紋の問題に画像処理技術を適用したものもありますが(たとえば、Google Researchによるこの論文)、時間的変動が煩わしいため、これらの技術を問題やそのような問題に推奨することを躊躇します。

「この分析にはどのツールを使用する必要がありますか?」他の多くの中で:

  1. 特徴抽出:MFCC、開始検出
  2. 分類:GMM、SVM
  3. グーグル

不完全な回答で申し訳ありませんが、これは幅広い質問であり、この問題には、ここで簡単に回答できる以上のことがあります。

于 2010-12-21T20:37:33.327 に答える
1

あなたはすでにSTFTまたはそれらの画像を構築するための類似の何かを実行しているようですので、これらの混合時間/周波数構造の有用な要約を構築することをお勧めします。時間と振幅によってオーディオ波形データを少数(<30)のビンに分割し、各ビンに落ちたサンプルの数を単純に数えることで、オーディオ波形データをうまく利用できる、わずかに異なる目的で構築されたシステムを覚えています。 。時間/振幅ドメインまたは時間/周波数ドメインのいずれかで、同様のことができる場合があります。

于 2011-01-21T09:39:33.703 に答える
1

アプリケーションを定義する方法に応じて、監視ありまたは監視なしのアプローチが必要になる場合があります。最初のケースでは、サンプル(オーディオファイル)からクラス(鳥のIDまたはクラスが何であれ)への一連のマッピングをトレーニングフェーズに提供するために、いくつかの注釈プロセスが必要になります。教師なしアプローチの場合、同様のサウンドが同じクラスターにマッピングされるようにデータをクラスター化する必要があります。

私のライブラリを試すことができます:サウンド分類とサウンドクラスタリングの両方に高レベルのラッパーを提供するpyAudioAnalysis 。

于 2015-04-26T21:18:39.603 に答える