2 つの大きなテキスト ファイル (正確には csv) があります。1 つのファイルの行が 1 つの順序であり、もう 1 つのファイルの行が異なる順序であることを除いて、両方の内容はまったく同じです。
これらの 2 つのファイルを (プログラムで DotNetZip を使用して) 圧縮すると、ファイルの 1 つが常にかなり大きいことに気付きます。
私の質問は次のとおりです。
テキスト ファイル内のデータの順序は圧縮にどのように影響し、最適な圧縮率を保証するためにどのような手段を講じることができますか? -同様の行をグループ化すると(少なくとも私が使用しているZIPファイルの場合)、圧縮に役立つと思いますが、さまざまな圧縮アルゴリズムの内部構造に精通していないため、簡単な説明をいただければ幸いですこの教科では。
データの順序に関係なく最高の平均圧縮を達成するという意味で、この種のシナリオをより適切に処理するアルゴリズムはどれですか?