compression - 文字列の圧縮に単語ランクを使用しないのはなぜですか?

Question

主な質問が 3 つあります。

大きなテキストファイルがあるとしましょう。(1)単語をランクに置き換えることは、ファイルを圧縮する効果的な方法ですか? （この質問に対する回答を得ました。これは悪い考えです。）

また、新しい圧縮アルゴリズムを考え出しました。広く使用されている既存の圧縮モデルをいくつか読んだところ、統計的冗長性や確率的予測などのかなり高度な概念が使用されていることがわかりました。私のアルゴリズムは、これらすべての概念を使用するわけではなく、圧縮および解凍中に従う必要があるかなり単純な一連のルールです。(2)私の質問は、既存の圧縮方式について十分な知識がないまま、新しい圧縮アルゴリズムを考え出すのに時間を無駄にしているのでしょうか?

(3)さらに、文字列の圧縮に成功した場合、アルゴリズムをビデオや画像などの他のコンテンツに拡張できますか?

(3 番目の質問は、圧縮アルゴリズムに関する知識がないと答えにくいことは承知しています。しかし、残念ながら、このアルゴリズムは非常に初歩的で初期のものであるため、共有することを恥ずかしく思います。3 番目の質問は、必要に応じて無視してください)。

score 1 · Accepted Answer

あなたの質問はそのままでは意味を成しませんが (回答 #2 を参照)、言い換えてみます。あなたの質問が理解できたらお知らせください。個々の単語の確率を使用してテキストをモデル化すると、優れたテキスト圧縮アルゴリズムになりますか? 回答: いいえ。これは 0 次モデルであり、特定の単語が前の単語に続く条件付き確率など、より高次の相関関係を利用することはできません。一致する文字列とさまざまな文字の可能性を探す単純な既存のテキスト圧縮プログラムは、パフォーマンスが向上します。
はい、既存の圧縮方式について十分な知識がないまま、新しい圧縮アルゴリズムを考え出そうとすると、時間を無駄にしていることになります。最初に、テキストなどのデータをモデル化するために長年適用されてきた手法と、モデル化された情報を使用してデータを圧縮する方法について学ぶ必要があります。新しいアプローチを開発する前に、すでに何十年も研究されてきたことを研究する必要があります。
圧縮部分は伸びますが、造形部分は伸びません。

score 1 · Accepted Answer

頻度で並べ替えられた単語のランキングテーブルを作成し、最も頻繁に繰り返される単語に小さい「記号」を割り当てて、送信する必要がある情報量を減らすようなものですか?

これが基本的にハフマンコーディングの仕組みです。圧縮の問題は、常に道のどこかで限界に達することです。もちろん、圧縮しようとするもののセットが特定のパターン/分布に従っている場合、実際に効率的になる可能性があります。しかし、一般的な目的 (オーディオ/ビデオ/テキスト/ランダムに見える暗号化されたデータ) には、「最良の」圧縮技術はありません (そして、あり得ないと私は信じています)。

score 0 · Accepted Answer

ハフマンコーディングでは、文字の頻度を使用します。単語や、より多くの次元の文字頻度、つまり文字とその頻度の組み合わせでも同じことができます。

compression - 文字列の圧縮に単語ランクを使用しないのはなぜですか?

3 に答える 3

Related

Reference