オーディオとビジュアルの機能を並行して分析しようとしています。私のオーディオ音声機能は、隠れマルコフ モデル ツールキットを使用して 100fps でサンプリングされたメル周波数ケプストラム係数です。私の視覚的特徴は、私が作成したリップ トラッキング プログラムに由来し、29.97 fps でサンプリングされています。
サンプル レートも 100 fps になるように視覚的特徴を補間する必要があることはわかっていますが、これをオンラインで行う方法についての適切な説明やチュートリアルが見つかりません。私が見つけた助けのほとんどは、読者に代わって補間の知識を前提とする音声認識コミュニティからのものです。つまり、ほとんどは、単純な「サンプルレートが 100fps になるように視覚的特徴を補間する」というステップをカバーしています。
誰かが私を正しい方向に向けることができますか?
どうもありがとう