ビデオの「興味深い」代表的なサムネイルを見つけるために使用できるアルゴリズムを知っている人はいますか?
私は 30 個のビットマップを持っていますが、最も代表的なものをビデオのサムネイルとして選びたいと思います。
明らかな最初のステップは、すべての黒いフレームを削除することです。次に、おそらくさまざまなフレーム間の「距離」を探し、平均に近いものを選択します。
ここで役立つアイデアや公開された論文はありますか?
ビデオの「興味深い」代表的なサムネイルを見つけるために使用できるアルゴリズムを知っている人はいますか?
私は 30 個のビットマップを持っていますが、最も代表的なものをビデオのサムネイルとして選びたいと思います。
明らかな最初のステップは、すべての黒いフレームを削除することです。次に、おそらくさまざまなフレーム間の「距離」を探し、平均に近いものを選択します。
ここで役立つアイデアや公開された論文はありますか?
ビデオに構造、つまり複数のショットが含まれる場合、ビデオ要約の標準的な手法には、(a) ショット検出、(b) 最初、中間、または n 番目のフレームを使用して各ショットを表すことが含まれます。[1] を参照してください。
ただし、単一のカメラ ソースから取得された単一の連続したフレーム ストリーム内で興味深いフレームを見つけたいと仮定してみましょう。つまりショット。これは、IR/CV (情報検索、コンピュータ ビジョン) のテキストで広く議論されている「キー フレーム検出」の問題です。いくつかの例示的なアプローチ:
一般に、これは大きな分野であり、多くのアプローチがあります。最新のアイデアについては、The International Conference on Image and Video Retrieval (CIVR) などの学術会議を見ることができます。[6] は、ビデオの抽象化 (キーフレームの検出と要約) の有用な詳細な要約を提示していることがわかります。
「30 個のビットマップから最適なものを見つける」問題については、[2] のようなアプローチを使用します。フレーム表現空間(フレームのカラーヒストグラムなど)を計算し、すべてのフレームを表すヒストグラムを計算し、2つの間の距離が最小のフレームを使用します(たとえば、空間に最適な距離メトリックを選択します。私は地球を試しますムーバーの距離)。
あなたが論文を求めたので、いくつか見つけました。キャンパス内にいない場合、またはキャンパスへの VPN 接続を使用していない場合、これらの論文にアクセスするのは難しい場合があります。
PanoramaExcerpts: ビデオ閲覧用のパノラマの抽出とパッキング
http://portal.acm.org/citation.cfm?id=266396
これは、コミックスタイルのキーフレーム表現を生成する方法を説明しています。
概要:
この論文では、漫画本に似た絵入りビデオ要約を自動的に作成する方法を紹介します。ビデオ セグメントの相対的な重要性は、その長さと目新しさから計算されます。画像と音声の分析を使用して、意味のあるイベントを自動的に検出して強調します。この重要度に基づいて、関連するキーフレームを選択します。選択されたキーフレームは重要度によってサイズが変更され、画像の要約に効率的にまとめられます。要約がビデオの顕著な出来事をどれだけうまく捉えているかの定量的尺度を提示し、それを使用して要約を改善する方法を示します。結果は、意味的に重要なイベントを捉えたコンパクトで視覚的に楽しい要約であり、印刷や Web アクセスに適しています。このような要約は、OCR やその他の方法から派生したテキスト キャプションを含めることで、さらに強化できます。
シーンコンテンツに基づく代表的なキーフレームの自動抽出
http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=751008
概要:
映画のインデックスを生成することは、私たちが自動化しようとしている面倒で費用のかかるプロセスです。シーンの境界を見つけるためのアルゴリズムはすぐに利用できますが、シーンを簡潔に表すために個々のフレームを選択する作業はほとんど行われていません。この論文では、シーンの内容に基づいて、代表的なキーフレームを自動選択するための新しいアルゴリズムを紹介します。いくつかのアルゴリズムの詳細な説明に続いて、選択されたフレームがシーンを表していると人間がどの程度感じているかを分析します。最後に、シーンの境界を見つけるために、これらのアルゴリズムを既存のアルゴリズムと統合する方法について説明します。
キーフレームだけを見ればいいと思います。
ビデオがキー フレームに基づく圧縮を使用してエンコードされていない場合は、次の記事に基づいてアルゴリズムを作成します:モーション解析によるキー フレームの選択。
ビデオの圧縮に応じて、2 秒または 30 秒ごとにキー フレームを作成できます。記事のアルゴリズムを使用して、すべてのキー フレームから「最も多くの」キーフレームを見つける必要があると思います。
審美的に満足できるフレームを好むことも有益かもしれません。つまり、縦横比、コントラスト、バランスなど、写真に共通する属性を探します。
何を求めているか分からないと、代表的なショットを見つけるのは難しいでしょう。しかし、いくつかのヒューリスティックと私の提案により、少なくとも見栄えの良いものを思いつくことができます.
私は最近、ビデオ処理を行うプロジェクトに取り組みました。ビデオ処理に関する限り、OpenCVを使用して重労働を行いました。フレームの抽出、差分の計算、顔の抽出などを行う必要がありました。OpenCV には、フレーム間の差分を計算するアルゴリズムが組み込まれています。さまざまなビデオおよび画像形式で動作します。
うわー、素晴らしい質問です。2 番目のステップは、後継フレームとの間でほとんどまたはまったく変化がないフレームを繰り返し削除することだと思います。しかし、実際に行っているのは、潜在的に興味深いフレームのセットを減らすことだけです。Flickrのように信頼できるユーザーインタラクション統計がないため、「面白さ」をどの程度正確に判断するかが特別なソースだと思います。
ディレクターは、特に「興味をそそる」ショットや美しいショットに長居することがあります。そのため、変化しない 5 秒のセクションを見つけて、ほとんど黒いセクションを削除するのはどうですか?