ライブ録音用の音声感情認識システムの開発に取り組んでいます。特徴抽出にはOpenSMILEライブラリを使用しています。さまざまなクラスの音声タイプを含む一連のオーディオ ファイルを収集し、それらから特徴を抽出して、感情認識用の SVM ベースの分類子をトレーニングしました。ただし、ライブ音声でテストすると、これは完全に失敗します。その理由は、ライブ スピーチの信号と特徴の分布 (MFCC、LSP、ピッチ、強度、F0) が、ファイル内のものとはまったく異なるためです。OpenSMILE ライブラリは、マイクからの音声信号にアクセスするためにportaudioを使用します。
ファイル (f_original) を無線で再生し、マイクで録音してから、OpenSMILE に保存してもらいました (f_distorted)。f_original と f_distorted は、再生しても人間の耳にはあまり変わらないことがわかりました。ただし、大胆に視覚化した場合のオーディオ信号はかなり異なり、f_original と f_distorted から抽出された特徴は大きく異なります。ファイル f_original は 16000Hz で、特徴抽出の前に 44100Hz にアップサンプリングします。マイクは 44100Hz で録音します。
マイクを介して録音する場合、多少の歪みは予想されますが、実際に見られる歪みの量は極端です。
他の誰かが同様の問題に直面しましたか? これを修正する方法についての指針。
ありがとう!