EnergyDetector
音声アクティビティの検出には、ALIZEライブラリに基づくMISTRAL (以前はLIA_RAL)話者認識ツールキットのEnergyDetectorプログラムを使用していました。
オーディオファイルではなく機能ファイルで機能するため、信号のエネルギーを抽出する必要があります。私は通常、log-energyパラメーターを使用してケプストラム機能(MFCC)を抽出し、このパラメーターをVADに使用します。SPro信号処理ツールキットのユーティリティ部分であるsfbcep`は、次の方法で使用できます。
sfbcep -F PCM16 -p 19 -e -D -A input.wav output.prm
19個のMFCC+対数エネルギー係数+1次および2次のデルタ係数を抽出します。エネルギー係数は19番目であり、EnergyDetector構成ファイルで指定します。
次に、次の方法でEnergyDetectorを実行します。
EnergyDetector --config cfg/EnergyDetector.cfg --inputFeatureFilename output
回答の最後にある構成ファイルを使用する場合は、を入力する必要があります。セグメンテーションはにありoutput.prm
ます。prm/
lbl/
参考までに、EnergyDetector構成ファイルを添付します。
*** EnergyDetector Config File
***
loadFeatureFileExtension .prm
minLLK -200
maxLLK 1000
bigEndian false
loadFeatureFileFormat SPRO4
saveFeatureFileFormat SPRO4
saveFeatureFileSPro3DataKind FBCEPSTRA
featureServerBufferSize ALL_FEATURES
featureServerMemAlloc 50000000
featureFilesPath prm/
mixtureFilesPath gmm/
lstPath lst/
labelOutputFrames speech
labelSelectedFrames all
addDefaultLabel true
defaultLabel all
saveLabelFileExtension .lbl
labelFilesPath lbl/
frameLength 0.01
segmentalMode file
nbTrainIt 8
varianceFlooring 0.0001
varianceCeiling 1.5
alpha 0.25
mixtureDistribCount 3
featureServerMask 19
vectSize 1
baggedFrameProbabilityInit 0.1
thresholdMode weight
CMUスフィンクス
CMU Sphinx音声認識ソフトウェアには、VADが組み込まれています。これはCで記述されており、ハッキングしてラベルファイルを作成できる場合があります。
ごく最近追加されたのはGStreamerのサポートです。これは、GStreamerメディアパイプラインでそのVADを使用できることを意味します。GStreamerおよびPythonでのPocketSphinxの使用->「vader」要素を参照してください
その他のVAD
また、音声/非音声分類のファイルを出力するAMR1コーデックの修正バージョンを使用していますが、そのソースをオンラインで見つけることができません。申し訳ありません。