問題タブ [data-compression]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
4286 参照

java - GZIPOutputStream が HTTP 応答の文字列を適切に圧縮しない

JSON データで応答する単純な Java http サーバーを作成しています。データを送信する前に GZip しようとしていますが、通常は gzip されたデータが返され、ブラウザーでエラーが発生します。たとえば、Firefox では次のように表示されます。

コンテンツ エンコーディング エラー 表示しようとしているページは、無効またはサポートされていない形式の圧縮を使用しているため、表示できません。

圧縮している文字列が特定の文字なしで小さい場合は機能することがありますが、括弧などがあると混乱するようです。特に、以下の例のテキストは失敗します。

これはある種の文字エンコーディングの問題ですか? いろいろ試してみましたが、なかなかうまくいきません。

0 投票する
2 に答える
8836 参照

python - Pythonによる大きなファイル圧縮

Python で大きなテキスト ファイルを圧縮したい (>20Gb ファイルについて話している)。私は専門家ではないので、見つけた情報を収集しようとしましたが、次のように動作するようです:

この構文が正しいかどうか、また最適化する方法があるかどうか疑問に思っています。ここで何かが欠けているという印象があります。

どうもありがとう。

0 投票する
1 に答える
4083 参照

c - Cプログラムでlibbz2ライブラリを使用してメモリバッファ内のデータを圧縮する方法

C プログラムで libbz2 ライブラリを使用してメモリ データを圧縮しようとしています。

libbz2 のこの関数を使用する必要がありますか?:

誰かが私に例を示すことができますか?

ありがとうございました。

0 投票する
3 に答える
634 参照

data-structures - 類似しているが同一ではない文字列のリストを圧縮する最良の方法は何ですか?

たとえば、非常に似ているが完全に同一ではない多くの文字列があるとします。

それらは多かれ少なかれ異なる場合がありますが、類似性は肉眼で確認できます。

長さはすべて等しく、それぞれが 256 バイトです。文字列の総数が 2^16 未満です。

このような場合の最適な圧縮方法は何でしょうか?

更新 (データ形式):

データを共有することはできませんが、現実に非常に近いことを説明できます。

平面上を移動して描画するためのデバイスの一連のコマンドである (ロゴ言語のような) 表記法を想像してみてください。そのような:

等々。

この言語の語彙全体は、英語のアルファベットのサイズを超えません。

次に、文字列は全体像を表します: "U12C6P1L74D74R74U74P0...."。

今、この言語の助けを借りて非常に具体的なイメージを描くように言われた1万人の子供たちのクラスを想像してみてください:彼らの国の旗のように. すべてが異なっていて、すべてが同じである 10K の文字列を同時に取得します。

私たちの仕事は、一連の文字列全体を可能な限り圧縮することです。

ここで私の疑念は、文字列のこの類似性と共通の長さを利用する方法があるということですが、Huffman はそれを明示的に使用することはありません。

0 投票する
4 に答える
2825 参照

algorithm - 反復ベース、パターンベースのデータ圧縮アルゴリズム

次の文字列があるとします。

繰り返し部分文字列を見つけて圧縮したい。最適な圧縮を行うアルゴリズムは何ですか?

上記の例では、返されるはずです

比較のために、貪欲なアルゴリズムが返される可能性があります

0 投票する
1 に答える
820 参照

algorithm - 有限精度算術符号化デコードプロセス?

私は算術符号化、特に有限精度の扱い方について読んでいます。たとえば、範囲が区間(0、0.5)または(0.5、1)内にある場合、それぞれ0または1を出力できます。 、次に範囲を2倍にします。私が理解していないのは、このプロセスが採用されている場合、結果のコードをどのようにデコードするのですか?

0 投票する
1 に答える
1383 参照

mysql - Java には mysql 互換の compress()/decompress() が必要です

MySql compress() 関数を varchar で、列ごとに数千文字から百万文字以上になる傾向があるフィールドに適用することを考えています。テキストはほぼ通常の英語なので、圧縮率は 8 対 1 またはそれ以上です。私は何百万ものレコードを持っており、実際にデータを見たいと思うことはめったにないので、圧縮は適切なエンジニアリング トレードオフのようです。

ほとんどの処理は Java で行う必要があり、zip、gzip、bzip2 の優れた実装があります。それはクールです。

しかし、標準のMySqlクライアントを使用して次のようなクエリを実行できるようになりたいです.

select decompress(longcolumn) where ...

そのため、組み込み関数と同じ、または互換性のある圧縮アルゴリズムを Java コードで使用したいと考えています。私が見つけたドキュメントには、「zlibなどの圧縮ライブラリでコンパイルされた」と書かれています

これは少しあいまいですが、何を使用すればよいかを正確に知るにはどうすればよいですか?

=== 編集済み == 明確にするために、「mysql」クライアント プログラムを使用してデバッグを実行できるようにしたいので、次のようにします。

select decompress(longcolumn) where ...

Javaをまったく使用しないでください。しかし、JDBC を使用して更新と挿入を行いたいと考えています。メインラインの使用法では、圧縮されたブログを取得してから解凍する必要があります。ある種のラッパーまたは ZipInputStream で問題ありません。

0 投票する
1 に答える
3576 参照

microcontroller - マイコンのデータ圧縮

私はPICマイクロコントローラでプロジェクトを行っています。私は、ADC をサンプリングしてデータを RAM メモリに保存しています。RAM がいっぱいになると、PIC マイクロコントローラを使用して Bluetooth 経由でデータを送信する必要があります。

私のデータは非常に冗長です。同じ値である約 10 ~ 20 の連続したバイトがあり、それが変化しても、約 10 ~ 20 の連続したバイトは同じです。

512Kbyte 程度のデータを圧縮して bluetooth で高速に送信したいのですが、512Kbytes のデータを 2Mbps の Bluetooth で転送するのに約 2 秒かかります。データはデュアル コア ARM プラットフォームに転送されるため、解凍は高速であり、問​​題はありません。

PIC24 や dsPIC などの PIC マイクロコントローラのデータを約 40MIPS で比較的高速に圧縮するアルゴリズムはありますか?

0 投票する
1 に答える
155 参照

database-backups - データベースのバックアップ、トランザクションログの削除、縮小、非クラスター化インデックスの削除、テーブルの再構築フィルファクター100%、圧縮

まず、私は開発者であり、バグのテスト/修正のためにデータベースのバックアップを取っているところです。

削除するバックアップのサイズを取得したいのは、現時点では、バックアップをイントラネット経由で転送するよりも高速に投稿できるためです。開発システムでバックアップを復元した後、最初に行うことはドロップです。とにかくトランザクションログを縮小します。

SQL Server Managment Studio 2005を使用して、トランザクションログまたは非クラスター化インデックステーブルを含まないバックアップを作成し、バックアップ内のテーブルを再構築してフィルファクターを100%にしてから、圧縮する方法はありますか?バックアップファイル?

または、少なくとも、トランザクションログを含まないバックアップを取る方法はありますか?

0 投票する
3 に答える
1454 参照

c# - データの圧縮と暗号化を実行する明確な順序はありますか

データの圧縮と暗号化を実行する必要があるという要件があります。

ただし、圧縮率と実行時間を最適化するには、どのステップを最初に実行する必要があるかについて疑問があります。最初に実行するステップと、使用する圧縮および暗号化のアプローチを選択するにはどうすればよいですか?