特定の人間のアクションのビデオから単一の「キーフレーム」を抽出する必要があります(アクションは一般的なものである可能性があります)。説明的ではなく差別的になります(ビデオで興味深いフレームを見つける)。
要するに、バスケットボールのビデオで、コーヒーを飲んでいるビデオと区別できる 1 つのフレームを見つける必要があります。
私が見たほとんどの論文は、ある種のビデオ要約技術でしたが、このように抽出されたフレームは、アクション カテゴリを分離するのに最適である必要はありません。これが私のつまずきです。テスト時に、キーフレームを抽出するためのテスト ビデオしかありませんが、他のアクション カテゴリ ビデオとは最も異なるフレームを抽出できるモデルが必要です。