16

離散コサイン変換と呼ばれる画像/ビデオ変換手法を実装しました。この技術は、MPEG ビデオ エンコーディングで使用されます。次の URL に示されているアイデアに基づいてアルゴリズムを作成しました。

http://vsr.informatik.tu-chemnitz.de/~jan/MPEG/HTML/mpeg_tech.html

これで、次のような白黒画像の 8x8 セクションを変換できます。

0140 0124 0124 0132 0130 0139 0102 0088  
0140 0123 0126 0132 0134 0134 0088 0117  
0143 0126 0126 0133 0134 0138 0081 0082  
0148 0126 0128 0136 0137 0134 0079 0130  
0147 0128 0126 0137 0138 0145 0132 0144  
0147 0131 0123 0138 0137 0140 0145 0137  
0142 0135 0122 0137 0140 0138 0143 0112  
0140 0138 0125 0137 0140 0140 0148 0143

これには、すべての重要な情報が右上にある画像があります。変換されたブロックは次のようになります。

1041 0039 -023 0044 0027 0000 0021 -019  
-050 ​​0044 -029 0000 0009 -014 0032 -010  
0000 0000 0000 0000 -018 0010 -017 0000  
0014 -019 0010 0000 0000 0016 -012 0000  
0010 -010 0000 0000 0000 0000 0000 0000  
-016 0021 -014 0010 0000 0000 0000 0000  
0000 0000 0000 0000 0000 0000 0000 0000  
0000 0000 -010 0013 -014 0010 0000 0000  

さて、この変換をどのように利用できるかを知る必要がありますか? 同じ画像 (または別の画像) で、一致する他の 8x8 ブロックを検出したいと思います。

また、この変換は私に何をもたらしますか? 変換された画像の右上に格納されている情報が重要なのはなぜですか?

4

6 に答える 6

14

DCT の結果は、元のソースを周波数ドメインに変換したものです。左上のエントリには、「振幅」、「ベース」周波数が格納され、水平軸と垂直軸の両方に沿って周波数が増加します。DCT の結果は、通常、より一般的な低周波数 (左上の象限) での振幅のコレクションであり、高周波数でのエントリは少なくなります。lassevk が述べたように、通常、これらの高周波は音源の非常に小さな部分を構成するため、ゼロ アウトするのが一般的です。ただし、これにより情報が失われます。圧縮を完了するには、通常、DCT されたソースに対して可逆圧縮を使用します。これが圧縮の出番です。すべてのゼロの実行がほとんど何も圧縮されないからです。

DCT を使用して同様の領域を見つける利点の 1 つは、低頻度の値 (左上隅) で最初のパスの一致を実行できることです。これにより、照合する必要がある値の数が減ります。低頻度の値の一致が見つかった場合は、より高い頻度の比較に進むことができます。

お役に立てれば

于 2008-08-09T01:03:18.317 に答える
4

DCT について私が知っていることはすべてThe Data Compression Bookから学びました。データ圧縮の分野への優れた導入であることに加えて、JPEG と DCT を紹介する非可逆画像圧縮に関する章が最後近くにあります。

于 2008-08-12T08:28:06.513 に答える
1

私の記憶が正しければ、このマトリックスを使用すると、データを圧縮してファイルに保存できます。

さらに下を読むと、その最終行列から読み取るデータのジグザグ パターンが見つかります。最も重要なデータは左上隅にあり、最も重要でないデータは右下隅にあります。そのため、ある時点で書き込みを停止し、残りを 0 と見なすと、たとえそうでなくても、画像の非可逆近似が得られます。

破棄する値の数は、イメージの忠実度を犠牲にして圧縮を増加させます。

しかし、他の誰かがあなたにもっと良い説明をしてくれると確信しています。

于 2008-08-07T11:08:21.020 に答える
1

Digital Video Compressionのコピーを入手することをお勧めします。これは、画像とビデオの圧縮アルゴリズムの非常に優れた概要です。

于 2008-08-10T01:39:42.127 に答える
1

Anthony Cramp の答えは私には良さそうに見えました。彼が言及しているように、DCT はデータを周波数ドメインに変換します。人間の視覚系は高周波数の変化にあまり敏感ではないため、DCT はビデオ圧縮で頻繁に使用されます。したがって、高周波数の値をゼロにするとファイルが小さくなり、人間のビデオ品質の認識にはほとんど影響しません。

DCT を使用して画像を比較するという点では、唯一の本当の利点は、より高い頻度のデータを切り取って、検索/照合するデータのセットを小さくすることだと思います。Harr ウェーブレットのようなものを使用すると、より良いイメージ マッチング結果が得られる場合があります。

于 2008-08-27T11:33:54.560 に答える