java - 連続マイクストリームからの非音声、非音楽のリアルタイム識別

Question

車のドアがバタンと閉まる音や、トースターがトーストを出す音など、特定の音に対応するイベントをログに記録したいと考えています。

システムは「騒音検出器」よりも洗練されたものである必要があります。その特定の音を他の大きな音と区別できる必要があります。

識別はゼロレイテンシである必要はありませんが、プロセッサは、常にオンになっているマイクからの着信データの連続ストリームに対応する必要があります。

この回答は、一致したフィルターが適切であることを示していますが、詳細については漠然としています。ターゲットサウンドのバリエーションにより、ターゲットサウンドのサンプルとマイクストリームとの間のオーディオ波形データに対する単純な相互相関が効果的であるとは思えません。

私の質問もこれに似ていますが、あまり注目されていませんでした。

score 3 · Accepted Answer

この博士論文、Cowling（2004）による自律監視のための非音声環境音分類システムは、音声特徴抽出と分類のためのさまざまな手法に関する実験結果を持っています。彼は、ジャグリングキーや足音などの環境音を使用し、70％の精度を達成することができました。

最良の手法は、動的タイムワーピングを使用した連続ウェーブレット変換特徴抽出または動的タイムワーピングを使用したメル周波数ケプストラム係数のいずれかであることがわかります。これらの手法は両方とも70％の認識率を達成します。

1つの音に制限すると、より高い認識率を達成できる可能性がありますか？

著者はまた、音声認識（ベクトル量子化とニューラルネットワークの学習）でかなりうまく機能する技術は、環境音ではあまりうまく機能しないと述べています。

また、ここでより最近の記事を見つけました：ブガリョらによるセマンティックビデオ検索のためのオーディオイベントの検出。（2009）、映画のサウンドイベント（銃声、爆発など）を検出します。

私はこの分野での経験がありません。あなたの質問が私の興味をそそる結果として、私は単にこの資料に出くわしました。それがあなたの研究に役立つことを願って、私はここに私の発見を投稿しています。

score 3 · Accepted Answer

この件について興味深い論文を見つけた

周波数ベクトル主成分分析による車両サウンドシグネチャの認識 Huadong Wu、Mel Siegel、および Pradeep Khosla による (IEEE Transactions on Instrumentation and Measurement、Vol. 48、No. 5、1999 年 10 月)

車両の音よりも優れているとは言えませんが、アプリケーションでも機能するはずです。

トレーニングデータを分析すると...

200ms のサンプルを取る
各サンプルでフーリエ変換 (FFT) を実行します
周波数ベクトルで主成分分析を行います
- このクラスのすべてのサンプルの平均を計算します
- サンプルから平均を引きます
- 平均共分散行列の固有ベクトルを計算します (各ベクトルとそれ自体の外積の平均)
- 平均および最も重要な固有ベクトルを格納します。

次に、音を分類するには...

java - 連続マイク ストリームからの非音声、非音楽のリアルタイム識別