algorithm - Terra 圧縮は可能ですか? もしそうなら、説明とサンプルを提供してください

Question

長い Ascii 文字列テキストは、洗練された数式/アルゴリズムを使用して、ハッシュの種類の ascii「チェックサム」に圧縮および圧縮される場合とされない場合があります。圧縮できる空気と同じです。

メガバイトの ASCII テキストを 128 バイト程度に圧縮するには、シャッフルしてから、単一の「バイト」の新しい「パターン」を最初から最後まで順番に混合します。それを解凍するときは、最後の文字が最初に抽出され、次に式と最後から最初への連続キーを使用して解凍を続けます。完全に更新された最終コンパイル済み文字列、および圧縮された合計バイト数を含め、シーケンシャルキーと最後と最初のバイトを正確に把握する必要があります。

これが私が考えていたテラ圧縮です。これは可能ですか？例を説明できますか。私はこの理論に取り組んでおり、それは私自身の考えです。

score 8 · Accepted Answer

一般に？絶対違う。

いくつかの特定のケースでは？うん。スペースだけで構成される 1 メガバイトの ASCII テキストは、非常によく圧縮される可能性があります。通常、実際のテキストはかなり圧縮されますが、数メガバイトから 128 バイトにはなりません。

有効な英単語の文字列だけでも、数メガバイトに収まる文字列の数を考えてみてください。256^128 をはるかに超えています。ピジョンホールの原理により、すべてを 128 バイトまで圧縮することはできません...

score 6 · Accepted Answer

n個の可能な入力文字列とm 個の可能な圧縮文字列があり、mがnより小さい場合、2 つの文字列が同じ圧縮文字列にマップされる必要があります。これはピジョンホールの原理と呼ばれ、データを圧縮できる量に制限がある根本的な理由です。

あなたが説明しているのは、ハッシュ関数に似ています。多くのハッシュ関数は、文字列のハッシュが与えられると、同じハッシュを与える別の文字列が見つかる可能性が非常に低いように設計されています。しかし、与えられたハッシュから元の文字列を発見する方法はありません。ハッシュ操作を逆にして、そのハッシュを与える有効な入力を生成できたとしても、同じハッシュを与える他の入力が無数にあります。どれが「正しい」ものかはわかりません。

score 3 · Accepted Answer

情報理論は、この種の問題に取り組む科学分野です。また、圧縮メッセージ(可逆圧縮)を格納するために必要な最小ビット量を計算することもできます。この下限は、メッセージのエントロピーとして知られています。

テキストのエントロピーは、マルコフモデルを使用して計算できます。このようなモデルでは、特定のアルファベット文字列の可能性が高いという情報を使用します。

score 2 · Accepted Answer

空気の例えは非常に間違っています。

空気を圧縮すると、分子が互いに接近し、各分子に与えられるスペースが少なくなります。

データを圧縮すると、ビットを小さくすることはできません (ハードドライブを油圧プレスに入れない限り)。実際にビットを小さくする最も近い方法は、ネットワークの帯域幅を増やすことですが、それは圧縮ではありません。

圧縮とは、データを計算するための可逆式を見つけることです。データ圧縮に関する「ルール」は次のようなものです

アルゴリズム (標準の開始辞書を含む) は事前に共有され、圧縮データには含まれません。
次のようなすべての起動パラメータを圧縮データに含める必要があります。
- アルゴリズムバリアントの選択
- 辞書の選択
- すべての圧縮データ
アルゴリズムは、ドメイン内で考えられるすべてのメッセージ(プレーンテキスト、数字、バイナリデータなど)を圧縮/解凍できる必要があります。

圧縮がどのように機能するかを理解するには、Run length encodingやLempel Ziv Welchなどの例を調べてください。

score 1 · Accepted Answer

数式と開始値を格納することで効果的に機能するフラクタル圧縮について考えているかもしれません。式は特定の回数反復され、結果は元の入力の近似値になります。

これにより、高圧縮が可能になりますが、損失が多く (出力は入力に近いですが、まったく同じではありません)、圧縮が非常に遅くなる可能性があります。それでも、170:1 の比率は現時点で達成された最高値です。

score 0 · Accepted Answer

test は利用可能なすべてのビットを使用しないため、ある程度圧縮できます (つまり、az と AZ は 256 の値のうち 52 を構成します)。繰り返しパターンにより、ある程度のインテリジェントストレージ (zip) が可能になります。

テキストの任意の大きなチャンクを固定長のバイト数に格納する方法はありません。

空気を圧縮することはできますが、分子を取り除くことはできません! 質量はそのままです。

score 0 · Accepted Answer

少し話が逸れますが、私は USENET に登場したBroloid 圧縮ジョークスレッドを思い出しました ... USENET がまだ興味深いものだった頃にさかのぼります。

真剣に、テキストメガバイトファイルを数百バイトに縮小する魔法の圧縮アルゴリズムを持っていると主張する人は、次のいずれかです。

詐欺師、
基本的な情報理論を理解していない人、または
両方。

algorithm - Terra 圧縮は可能ですか? もしそうなら、説明とサンプルを提供してください

7 に答える 7

Related

Reference