deflate 圧縮用の辞書を事前設定する機会があります。私の場合は、圧縮するデータが 1kb から 3kb と比較的小さく、代表的な例のサンプルが多いため、これは理にかなっています。圧縮するデータは任意のバイト列で構成されているため、トークン化などは適切な方法ではありません。また、データは(データ例間で)多くの繰り返しを示しているため、優れた辞書は非常に良い結果をもたらす可能性があります。問題は、良い辞書をどのように計算するかです。最適な辞書を計算するアルゴリズムはありますか (与えられたサンプル データ)?
プレフィックス ツリーを調べ始めましたが、このコンテキストでそれらを使用する方法が明確ではありません。
よろしく、ジャレク