1

ライブ録音用の音声感情認識システムの開発に取り組んでいます。特徴抽出にはOpenSMILEライブラリを使用しています。さまざまなクラスの音声タイプを含む一連のオーディオ ファイルを収集し、それらから特徴を抽出して、感情認識用の SVM ベースの分類子をトレーニングしました。ただし、ライブ音声でテストすると、これは完全に失敗します。その理由は、ライブ スピーチの信号と特徴の分布 (MFCC、LSP、ピッチ、強度、F0) が、ファイル内のものとはまったく異なるためです。OpenSMILE ライブラリは、マイクからの音声信号にアクセスするためにportaudioを使用します。

ファイル (f_original) を無線で再生し、マイクで録音してから、OpenSMILE に保存してもらいました (f_distorted)。f_original と f_distorted は、再生しても人間の耳にはあまり変わらないことがわかりました。ただし、大胆に視覚化した場合のオーディオ信号はかなり異なり、f_original と f_distorted から抽出された特徴は大きく異なります。ファイル f_original は 16000Hz で、特徴抽出の前に 44100Hz にアップサンプリングします。マイクは 44100Hz で録音します。

マイクを介して録音する場合、多少の歪みは予想されますが、実際に見られる歪みの量は極端です。

他の誰かが同様の問題に直面しましたか? これを修正する方法についての指針。

ありがとう!

4

1 に答える 1

1

これは、部屋、スピーカー/マイクの組み合わせの周波数応答、録音室内でのタイプ/位置など、録音の環境要因に大きく依存します。ソフトウェアはこれをクリーンアップするのに役立つかもしれませんが、クリーンな記録を取得することは、ソフトウェアのプロファイリング機能に影響を与える唯一の最も重要な要因になります.

録音レベルが正しく設定されており、マイクとスピーカーの周波数応答が比較的フラットであると仮定すると、環境に応じてサウンドの周波数プロファイルが変換されます。

この影響は、再生時にすぐに明らかにならない場合がありますが、悪影響を受けるサウンドの要素がいくつかあります。これは、作曲家によって大きな効果を発揮するために使用されてきました。

このタイプの構成の美しい例については、http: //www.ubu.com/sound/lucier.html の Alvin Lucier のI am sit in a roomを参照してください。

その録音で聞こえる一時的なにじみ効果の多くは、スピーチ プロファイリングに劇的な影響を与えるため、録音のセットアップを詳細に検討する必要があります。これはあなたが苦労しているように見える部分であるように思われるので、録音セットアップのヒントについてはサウンドエンジニアに相談するのがおそらく最善です. たとえば、使用している部屋の音響特性やオーディオ設定について言及していません。

また、使用する部屋/マイク/スピーカーのセットアップのインパルス応答を実行してから、録音された音声をインパルスでデコンボリューションすることもできます。これにより、理論的には録音が元の信号の完全な表現に縮小されるはずです。これは注意が必要ですが、驚くべき結果が得られる可能性があります。

于 2013-06-03T22:56:34.490 に答える