何百万もの行が繰り返されたり、順番に複製されたりする csv ファイルを圧縮する最適な方法があるかどうかを知りたかったのです。各行には 4 ~ 5 個の要素があります。一意の行は数百しかありませんが、各行が何度も出現するため、ファイル全体のサイズが大きくなります。
gzip や bzip2 などのツールで使われている細かいアルゴリズムについては詳しくありませんが、gzip や bzip2 にこのパターンを指示する方法はないかと考えていました。たとえば、a、b、c、d、e の行が 100 万行ある場合、これは内部的に abcde のエントリとして最適に表すことができ、回数が繰り返される場合はその数のカウントになります (たとえば、abcde が 2 M 回繰り返される場合)。 )。これは、圧縮アルゴリズムが abcdeabcdabcde... を圧縮しようとするため、言うよりも最適です。データがソートされた表形式であり、重複した行/タプルが含まれている場合など、ケースを最適化するための汎用的な方法を探しています。
前もって感謝します。