signal-processing - オーディオストリームから音声を検出する方法

Question

誰かがオーディオストリームでいつ話すかを判断する必要があります。ハミングウィンドウを適用し、FFTを計算しました。ここから人間の声を検出するにはどうすればよいですか？

score 2 · Accepted Answer

独自の音声アクティビティ検出アルゴリズムを試してみたい場合は、初期段階としてFFTを使用できます。次に、特性化された定常スペクトルノイズバックグラウンドを差し引いてみてください。次に、修正されたFFT結果を使用して、特徴抽出用のケプストラム（またはいくつかの重み付けされたケプストラム係数）を計算してみてください。次に、抽出することを決定した特徴ベクトルに対して統計的パターンマッチングを実行し、その結果を決定アルゴリズムにフィードすることができます。

上記の各ステップはおそらく研究トピックであり、適切な実装には、おそらく大学の図書館にある数十の公開された研究論文の研究が含まれる可能性があります。

score 1 · Accepted Answer

このためにFFTを実行する必要はありません。音声アクティビティ検出アルゴリズムを実装する必要があります。

signal-processing - オーディオストリームから音声を検出する方法

2 に答える 2

Related

Reference