ビデオを要約するプログラムを Java で作成しました。このファイルは、オーディオ ファイルとビデオ ファイルを読み取り、ヒューリスティックに応じていくつかのショットに分割します。また、ユーザーが指定したパーセンテージ値に基づいて、重みの高いショットのみが要約の一部として取得されます。
上記のように、ピクセルの動き、キーフレームのしきい値、およびパーセンテージであるしきい値が、ビデオの種類ごとに計算される可能性はありますか....できればニューラルネットワークによるトレーニングを使用しますか?