0

オーディオとビジュアルの機能を並行して分析しようとしています。私のオーディオ音声機能は、隠れマルコフ モデル ツールキットを使用して 100fps でサンプリングされたメル周波数ケプストラム係数です。私の視覚的特徴は、私が作成したリップ トラッキング プログラムに由来し、29.97 fps でサンプリングされています。

サンプル レートも 100 fps になるように視覚的特徴を補間する必要があることはわかっていますが、これをオンラインで行う方法についての適切な説明やチュートリアルが見つかりません。私が見つけた助けのほとんどは、読者に代わって補間の知識​​を前提とする音声認識コミュニティからのものです。つまり、ほとんどは、単純な「サンプルレートが 100fps になるように視覚的特徴を補間する」というステップをカバーしています。

誰かが私を正しい方向に向けることができますか?

どうもありがとう

4

1 に答える 1

1

顔の動きはビデオ キャプチャの前にローパス フィルター処理されないため、従来の DSP 補間方法のほとんどは適用されない場合があります。特徴ベクトルの線形補間を試して、ある時点のセットから別の時点のセットに取得することもできます。最も近い 2 つのビデオ フレームを選択し、補間してその間のデータ ポイントを増やします。顔追跡アルゴリズムが顔の動きの加速度を測定する場合は、スプライン補間を試すこともできます。

于 2011-09-22T15:25:27.310 に答える