video-encoding - ビデオ圧縮におけるブロックベースのモーション推定

Question

私たちが知っているように、ほとんどすべてのビデオエンコーダーは一時的なコーディングを使用しています。ブロック (長方形領域) ベースのモーション推定を使用して、参照/前のフレームで現在のフレームのピクセルのブロックの最適な一致を見つけます。これにより、モーションベクトルが得られます。モーションが並進的である場合 (つまり、ブロックが左右または上下に移動する場合) は問題ありません。オブジェクトが回転し、オブジェクトの形状が長方形で回転している場合、モーション推定はそれほど正確ではないため、最小のプレシデュアル（元のマイナス予測）にはなりません。

では、ビデオエンコーダーは、そのような回転運動を処理するためにどのような方法を採用していますか。

次に、そのブロックをPフレーム内のイントラブロック（以前のコードを参照せずにそのままコード）としてコーディングすることにより、そのような状況を処理しますか

また

それを P マクロブロック自体としてコーディングしているときに、それを処理するための他のトリックはありますか?

score 2 · Accepted Answer

私の知る限り、ビデオエンコーダーには回転運動の特別なケースはありません。まず、回転運動の検出自体に多くの時間がかかります。また、モーション推定はマクロブロックレベルで行われるため、フレーム全体が何らかの形で回転していない限り、フレーム内に回転していないマクロブロックがかなりの数存在する可能性があります。

私が提案できる1つの「トリック」は次のとおりです-

予測フレーム (P フレーム) と実際のフレームの間の PSNR を計算します。PSNR が低すぎる場合は、フレームを情報フレーム (I フレーム) としてエンコードする方が理にかなっています。時間がかかるため、これはライブ送信では実行できないことに注意してください。ただし、エンコード時間が問題にならない場合は可能です。その場合、単純にフル検索を使用できます。

score 1 · Accepted Answer

まず、回転方向を追加するたびに劇的に増加する計算の複雑さです。たとえば、モーションエスティメーション時間は「x」秒です。たとえば右手に90度を追加した後、回転したブロックで同じ参照フレーム検索ウィンドウを再度チェックする必要があるため、再び'x'秒があります。再び左回転を90度追加した後、モーション推定にさらにx秒を追加します。そして、ここでの主な問題は、エンコーダー全体で、通常、モーションエスティメーションがエンコード時間の大部分を消費するブロックであるということです。

2番目の問題は動き補償ユニットの複雑さです。推定または予測に回転ブロックがある場合は、エンコーダーとデコーダーでも、補正されたフレームを生成するために同じ変換を生成する必要があります。最悪のことは、デコーダー側でも非常に複雑になることです。

3つ目は、可変ブロックサイズをサポートするための予測ユニットです。この規格は、固定されているブロックサイズの動きベクトルを常に定義しています。回転ブロックサイズが提案されている場合、方向はデコーダーでも標準化する必要があります。ここでは、動き補償ユニット、エントロピーエンコーダー/デコーダーなどがあります。

4つ目は、モーションベクトルコーディングです。回転運動ベクトルを追加するので、運動ベクトルにビットを追加する必要があります。したがって、これらをビームバランスに入れます。「MVごとに追加ビットを追加する」と「回転運動ベクトルを使用して圧縮効率を向上させる」という重みがあります。もっと。バランスが取れている場合、または「MVごとにビットを追加する」方が重要な場合は、回転MVを使用する必要はありません。

5つ目は、エンコーダのブロック図を深く理解することです。私たちが使用しているエンコーダーは、適応型差動パルス符号変調器または予測符号化を備えた同様のタイプに類似しています。ビデオ信号は常にエンコーダ差動です。ビデオ信号または任意の信号が差動でコード化されている場合、前のサンプルと現在のサンプルの時間差は非常に小さく（ここでは1 /フレームレート）、個々のブロックは常に並進方向に従います。回転MVは、フレームレートよりも大きいか、少なくともGOPサイズよりも大きい場合に、参照フレームで複数の参照フレームを使用している場合にのみ使用されます。したがって、この場合、回転MVは、PSNRをわずかに改善するか、モーションエスティメーション時間を劇的に増加させる可能性があります。

もう1つは、モーション方向の主観的および統計的研究についてです。

これらすべてにもかかわらず、これを実装するためのJCT-VCにはいくつかの提案がありますが、最終的には現在のHEVC規格では承認されていません。彼らはそれを理解し、将来すべての問題を解決しようとするかもしれません。

score 1 · Accepted Answer

モーション推定のポイントは、「典型的な」ビデオを削減するための計算コストの低い方法であるということです。

滝のビデオのようなものにモーションベースのコーディングを使用すると、サイズの縮小に失敗します。

同様の概念が JPEG 写真にも当てはまります。JPEG 圧縮が機能するのは、人間の目の特定の感度を利用しているからです。

結局のところ、データはデータであり、その量を無損失で減らすことはできません。最善の方法は、送信元と送信先についていくつか推測してから、視聴者には区別できないが、使用するデータ量が少ないものを再作成することです。これが、モーション推定が機能する理由です。人間が見る映画の 99.99% には人間が登場し、人間と同じように上下左右に動き回っています。そして WORKS とは、毎年制作される何百万時間もの映像のためにそれを行う価値があるほど十分に短い時間で行うことができるということです。

もちろん、これはシャノンのエントロピーhttp://en.wikipedia.org/wiki/Entropy_(information_theory ) と関係がありますが、その記事は私の脳が私の眼窩から少し浸透し始めるようにします...

video-encoding - ビデオ圧縮におけるブロックベースのモーション推定

3 に答える 3

Related

Reference