8

車のドアがバタンと閉まる音や、トースターがトーストを出す音など、特定の音に対応するイベントをログに記録したいと考えています。

システムは「騒音検出器」よりも洗練されたものである必要があります。その特定の音を他の大きな音と区別できる必要があります。

識別はゼロレイテンシである必要はありませんが、プロセッサは、常にオンになっているマイクからの着信データの連続ストリームに対応する必要があります。

  • このタスクは音声認識とは大きく異なりますか? または、音声認識ライブラリ/ツールキットを利用して、これらの非音声音を識別できますか?
  • (サウンドのライブラリ間でマッチングするのではなく) 1 つのサウンドのみをマッチングする必要があるという要件がある場合、実行できる特別な最適化はありますか?

この回答は、一致したフィルターが適切であることを示していますが、詳細については漠然としています。ターゲット サウンドのバリエーションにより、ターゲット サウンドのサンプルとマイク ストリームとの間のオーディオ波形データに対する単純な相互相関が効果的であるとは思えません。

私の質問もこれに似ていますが、あまり注目されていませんでした。

4

2 に答える 2

3

この博士論文、Cowling(2004)による自律監視のための非音声環境音分類システムは、音声特徴抽出と分類のためのさまざまな手法に関する実験結果を持っています。彼は、ジャグリングキーや足音などの環境音を使用し、70%の精度を達成することができました。

最良の手法は、動的タイムワーピングを使用した連続ウェーブレット変換特徴抽出または動的タイムワーピングを使用したメル周波数ケプストラム係数のいずれかであることがわかります。これらの手法は両方とも70%の認識率を達成します。

1つの音に制限すると、より高い認識率を達成できる可能性がありますか?

著者はまた、音声認識(ベクトル量子化とニューラルネットワークの学習)でかなりうまく機能する技術は、環境音ではあまりうまく機能しないと述べています。

また、ここでより最近の記事を見つけました:ブガリョらによるセマンティックビデオ検索のためのオーディオイベントの検出。(2009)、映画のサウンドイベント(銃声、爆発など)を検出します。

私はこの分野での経験がありません。あなたの質問が私の興味をそそる結果として、私は単にこの資料に出くわしました。それがあなたの研究に役立つことを願って、私はここに私の発見を投稿しています。

于 2011-11-27T11:41:00.760 に答える
3

この件について興味深い論文を見つけた

  • 周波数ベクトル主成分分析による車両サウンド シグネチャの認識 Huadong Wu、Mel Siegel、および Pradeep Khosla による (IEEE Transactions on Instrumentation and Measurement、Vol. 48、No. 5、1999 年 10 月)

車両の音よりも優れているとは言えませんが、アプリケーションでも機能するはずです。

トレーニングデータを分析すると...

  1. 200ms のサンプルを取る
  2. 各サンプルでフーリエ変換 (FFT) を実行します
  3. 周波数ベクトルで主成分分析を行います

    • このクラスのすべてのサンプルの平均を計算します
    • サンプルから平均を引きます
    • 平均共分散行列の固有ベクトルを計算します (各ベクトルとそれ自体の外積の平均)
    • 平均および最も重要な固有ベクトルを格納します。

次に、音を分類するには...

  1. 200ms (S) のサンプルを取得します。
  2. 各サンプルでフーリエ変換を行います。
  3. 頻度ベクトル (F) からクラス (C) の平均を減算します。
  4. 周波数ベクトルに C の各固有ベクトルを乗算し、それぞれから数値を取得します。
  5. 各数値と対応する固有ベクトルの積を F から減算します。
  6. 結果のベクトルの長さを取ります。
  7. この値が一定値を下回る場合、S はクラス C に属すると認識されます。
于 2011-11-27T12:50:03.427 に答える