1 行に 1 単語の大きなファイルがあります。ファイル全体がソートされたので、圧縮する必要があります。単に GZIP を使用するだけで、かなり良い結果が得られます。ただし、ソートされた単語のリストを扱っていることを知っていると、もっとうまくできるかどうか疑問に思っています。
並べ替えられた単語のリストのスニペットを次に示します。
[...]
ABAISSAT
ABAISSATES
ABAISSE
ABAISSEE
ABAISSEES
ABAISSEMENT
ABAISSEMENTS
ABAISSENT
ABAISSER
ABAISSERA
ABAISSERAI
ABAISSERAIENT
ABAISSERAIS
[...]
プレフィックスを使用してファイルを圧縮すると、GZIP よりも良い結果が得られますか?
[...]
ABAISS AT ATES E EE EES EMENT EMENTS ENT ER ERA ERAI ERAIENT ERAIS
[...]
私が説明している種類の圧縮を使用して、単語のリストを圧縮できるアルゴリズムは何ですか? データを圧縮する方法は他にありますか?
PS私はTrieの使用について考え、それを実装しました。Trie is memory の最終的なサイズは、リスト自体とほぼ同じ大きさであり、リストをロードする時間は非常に長くなりました。これらの理由から、私はその道を歩まないことに決めました。