問題タブ [text-compression]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
28362 参照

compression - テキストのみの圧縮アルゴリズムの現状は?

ハッター賞を記念して、テキスト圧縮のトップ アルゴリズム (およびそれぞれの簡単な説明) は何ですか?

注: この質問の意図は、圧縮プログラムではなく、圧縮アルゴリズムの説明を得ることです。

0 投票する
2 に答える
468 参照

ascii - 古い ASCII プロトコル アバターの質問

プロトコル Avatar を覚えている人のために (私はこれがその名前だったと確信しています)、私はそれに関する情報を見つけようとしています。私がこれまでに見つけたのは、それが ANSI スタイルの圧縮プロトコルであり、一般的な ANSI エスケープ シーケンスを圧縮することによって行われるということだけです。

しかし、昔 (90 年代初頭) に、初期の 2400 ボー BIS モデムのようなモデムの ASCII テキストを圧縮するために使用されていたことを思い出しました。(当時のすべてのプロトコルのバージョン、名前などは覚えていません。申し訳ありません)。

とにかく、これにより、表示速度のおかげで、メッセージの読み取りとリモートシェルの使用が大幅に改善されました。ファイル転送などには何もしませんでした。ASCII テキストをできるだけ小さく圧縮する方法に過ぎませんでした。

私はこのトピックについて調査をしようとしていますが、これは探し始めるのに適した場所であると考えました. このプロトコルは、ASCII を圧縮するために本のすべてのトリックを使用したと思います。たとえば、一般的な単語を 1 バイトまたはビットに置き換えるなどです。

あなたがそれから抜け出すことができた比率を思い出せませんが、私が覚えているように、それはかなりまともでした.

誰でもこれに関する情報を持っていますか?ASCII テキストを 7 ビット未満に圧縮するか、Avatar のプロトコル情報を圧縮するか、それとも私が話している ASCII 圧縮のいずれかを実行したかどうかの答えでさえありますか?

0 投票する
4 に答える
4465 参照

mysql - 膨大な量のテキストを (DB に、またはファイルとして) 保存するためのベスト プラクティスは何ですか? また、それを圧縮するのはどうですか?

内部メールや、ユーザーとクライアントの間で頻繁にやり取りされる小規模から中規模のテキストのチャンクを処理する Web アプリを構築しています。このデータを保存するための最良の方法は何ですか? データベース (MySQL) または何千もの個別のファイルとして? それを圧縮するのはどうですか (PHP の gzcompress() または MySQL の圧縮機能)?

これは公開アプリケーションではないため、ユーザーの負荷は最小限に抑えられます (一度に 20 ユーザー未満)。ただ、アプリ内では毎日大量の通信が行われるので、時間の経過とともにデータ量がかなり増えることが予想されます(そのため、圧縮したいのです)。

アクセスと移植性を容易にするためにデータをデータベースに保持したいのですが、ここで見た画像に関するスレッドのいくつかは、ファイル ストレージの使用を提案しています。どう思いますか?

ありがとう、セス

明確にするために編集:テキストを検索する必要はありません。そのため、スペースを節約するためにテキストを圧縮することに傾いています。

0 投票する
3 に答える
1601 参照

php - 文字列を圧縮すると、改行なしの最終結果になりますか?

特定の文字列を短いバージョンに圧縮しようとしています。改行を含まない貼り付け可能な圧縮文字列をコピーします。

gzcompress を試しましたが、結果をコピーして別の php スクリプトに貼り付け、gzuncompress を試行すると、「警告: gzuncompress(): データ エラー」がスローされます。

文字列を圧縮するネイティブ php 関数はありますか?結果は改行のない文字列になりますか?

ありがとう。

0 投票する
5 に答える
313 参照

php - 異なるテキスト ファイルは、圧縮後に異なるサイズになるのはなぜですか?

ランダムなテキスト サイズ = 27 GB のファイルがあり、圧縮後は 40 MB 程度になります。

また、3.5 GB の sql ファイルは、圧縮後に 45 MB になります。

しかし、109 MB のテキスト ファイルは、圧縮後に 72 MB になるため、何が問題になる可能性がありますか。

なぜそれほど圧縮されていないのか、10 mb 程度にする必要があります。そうしないと、何かが不足しています。

私が見ることができるすべてのファイルは英語のテキストのみであり、いくつかの文法記号 (/ 、 . - = + など)

なんで?

そうでない場合、テキスト ファイルを超圧縮する方法を教えてください。

私はその中で PHP 、 np でコーディングできます。

0 投票する
3 に答える
10454 参照

python - PythonでのTEXT圧縮

私はこのテキストを持っています:

2,3,5,1,13,7,17​​,11,89,1,233,29,61,47,1597,19,37,41,421,199,28657,23,3001,521,53,281,514229,31,557,2207, 19801,3571,141961,107,73,9349,135721,2161,2789,211,433494437,43,109441,139,2971215073,1103,97,101,6376021,90481,953,5779,5,395,195,19801,3571,141961 2521,4513,3010349,35239681,1087,14736206161,9901,269,67,137,71,6673,103681,9375829,54018521,230686501,29134601,988681,79,157,1601,2269,370248451,99194853094755497,83,9521,6709, 173,263,1069,181,741469,4969,4531100550901,6643838879,761,769,193,599786069,197,401,743519377,919,519121,103,8288823481,119218851371,1247833,11128427,827728777,331,1459000305513721,10745088481,677,229,1381,347, 29717,709,159512939815855788121,

これは私のジェネレータープログラムから生成された数値です。問題にはソースコードの制限があるため、上記のテキストをソリューションで使用できないため、これを圧縮してPythonのデータ構造に入れ、印刷できるようにします次のようにインデックスを付けてそれらを作成します。

そして、このようF[0]に与える2 F[5]でしょう7...適切な圧縮手法を提案してください。

PS:私はPythonの初心者なので、あなたの方法を説明してください。

0 投票する
2 に答える
586 参照

json - 小さなデータの圧縮

たとえば4KBのバッファーがあり、JSONのような形式のデータが含まれています。かなり多くの情報(たとえば3倍以上)を追加する必要がありますが、この小さなメモリの塊に収まる必要があります。libZを使用してテキストを圧縮することを考えていましたが、データの大部分がいくつかの一意のサブ文字列で構成されているため、うまく機能しないのではないかと思います。この状況で何をお勧めしますか?ありがとう、クリス

0 投票する
1 に答える
332 参照

algorithm - Haskell 線形時間オンライン アルゴリズム

タイトルの大きな言葉を誤用していた場合はご容赦ください。私はそれらについてあまり詳しくありませんが、彼らが私の問題を説明してくれることを願っています. これらの要件に従って文字列を試してエンコードするための精巧なスキームを作成しました。長さが 10^4 以上の文字列の場合、私が書いたコードは非常に遅く、疑問に思っています。一度に 200 個のチャンクを処理するためです (ただし、次のチャンクを取得するために 1 文字だけ前方に移動することがあります)。結果をより速く、またはより直線的に出力するように変更する必要があります (たとえば、処理された 200 文字ごとに結果をすぐに出力するなど)。それまたは他の顕著な最適化に関する助けをいただければ幸いです。

電話の提案に従って、例を単純化しました。

0 投票する
3 に答える
4760 参照

algorithm - テキスト圧縮アルゴリズム

Unicode テキストを元のサイズの 10 ~ 20% に圧縮するアルゴリズムを誰かが紹介してくれませんか? 実際、テキストのサイズを元のサイズの 60% に縮小するLempel-Ziv 圧縮アルゴリズムを読んだことがありますが、このパフォーマンスのアルゴリズムがいくつかあると聞きました。

0 投票する
1 に答える
251 参照

algorithm - このテキスト圧縮スキームの名前は何ですか?

数年前、私は非常に軽量なテキスト圧縮アルゴリズムについて読みましたが、今では参考文献が見つからないか、その名前を思い出せません。

連続する文字の各ペアの違いを使用しました。たとえば、小文字は次の文字も小文字になると予測するため、違いは小さい傾向があります。(減算する前に前の文字の下位ビットを破棄した可能性があります。思い出すことはできません。) 瞬時の複雑さの軽減。そして、Unicode に対応しています。

もちろん、ビットストリームを生成するためのいくつかの追加機能と詳細がありましたが、超軽量で組み込みシステムに適していました。多額の辞書を保存する必要はありません。私が見た要約はウィキペディアにあったと確信していますが、何も見つかりません。

Google で発明されたことを思い出しますが、Snappyではありませんでした。