他の人がダウンロードして分析できるように、自分のサイトからデータダンプを作成しています。各ダンプは巨大なXMLファイルになります。
私は次のような最良の圧縮アルゴリズムを見つけようとしています。
- 効率的に圧縮します(CPUに関して)
- 可能な限り最小のファイルを作成します
- かなり一般的です
私は圧縮の基本を知っていますが、どのアルゴが法案に適合するかについての手がかりはありません。MySQLとPythonを使用してダンプを生成するので、優れたpythonライブラリを備えたものが必要になります。