signal-processing - ビデオ機能をアップサンプリング/補間する簡単な手法は?

Question

オーディオとビジュアルの機能を並行して分析しようとしています。私のオーディオ音声機能は、隠れマルコフモデルツールキットを使用して 100fps でサンプリングされたメル周波数ケプストラム係数です。私の視覚的特徴は、私が作成したリップトラッキングプログラムに由来し、29.97 fps でサンプリングされています。

サンプルレートも 100 fps になるように視覚的特徴を補間する必要があることはわかっていますが、これをオンラインで行う方法についての適切な説明やチュートリアルが見つかりません。私が見つけた助けのほとんどは、読者に代わって補間の知識を前提とする音声認識コミュニティからのものです。つまり、ほとんどは、単純な「サンプルレートが 100fps になるように視覚的特徴を補間する」というステップをカバーしています。

誰かが私を正しい方向に向けることができますか?

どうもありがとう

score 1 · Accepted Answer

顔の動きはビデオキャプチャの前にローパスフィルター処理されないため、従来の DSP 補間方法のほとんどは適用されない場合があります。特徴ベクトルの線形補間を試して、ある時点のセットから別の時点のセットに取得することもできます。最も近い 2 つのビデオフレームを選択し、補間してその間のデータポイントを増やします。顔追跡アルゴリズムが顔の動きの加速度を測定する場合は、スプライン補間を試すこともできます。

signal-processing - ビデオ機能をアップサンプリング/補間する簡単な手法は?

1 に答える 1

Related

Reference