1

他の人がダウンロードして分析できるように、自分のサイトからデータダンプを作成しています。各ダンプは巨大なXMLファイルになります。

私は次のような最良の圧縮アルゴリズムを見つけようとしています。

  • 効率的に圧縮します(CPUに関して)
  • 可能な限り最小のファイルを作成します
  • かなり一般的です

私は圧縮の基本を知っていますが、どのアルゴが法案に適合するかについての手がかりはありません。MySQLとPythonを使用してダンプを生成するので、優れたpythonライブラリを備えたものが必要になります。

4

1 に答える 1

3

ほとんどの場合、標準の圧縮レベルのGZIPで問題ありません。より高い圧縮レベル=より多​​くのCPU時間。BZ2はパッキングが優れていますが、速度も遅くなります。ええと、CPU消費/実行時間と圧縮効率の間には常にトレードオフがあります...デフォルトの圧縮レベルでのすべての圧縮は問題ないはずです。

于 2011-05-20T05:38:11.477 に答える