Web ページを圧縮テキスト ファイル (CSV) に保存したいと考えています。最適な圧縮を実現するために、1000 の Web ページのセットを提供したいと考えています。次にライブラリは、このコンテンツに最適な「辞書」を作成するのに時間を費やす必要があります。明らかな「辞書」エントリの<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
1 つは であり、ほとんどすべての Web ページに存在するため、%1 などとして保存される可能性があります。このようにカスタマイズされた辞書を作成することで、私の場合、圧縮率は 99% になるはずです。
私の質問は、これを行うためのライブラリが MIT または同様のリベラルなライセンスを使用して Windows に存在するかどうかです。そうでない場合、推奨する汎用圧縮ライブラリはありますか。zlib で少し試してみましたが、バイナリ データが出力されます。このバイナリデータをテキストに変換すると、元のテキストより長くなってしまうのではないかと心配です。
編集: テキストを CSV ファイルに保存し、データベースや Excel にインポートできるようにする必要があります。