多くの反復トークン (~25%) を含むテキスト ファイル形式の生データがあります。(A)データをコンパクトな形式で保存し(B)、実行時に元のファイルを再構成できるようにするアルゴリズムがあるかどうかを知りたいです。
何か案は?
詳細:
- 生データは、正規表現を使用したインスタント検索のために、純粋な html+javascript アプリで消費されます。
- データは、(大文字と小文字を区別する) 英字といくつかの句読点を含むトークンで構成されます。
- トークンはスペースと改行で区切られます。
これまでで最も有望なアルゴリズム: 以下で説明する簡潔なデータ構造ですが、再構築は難しそうです。
http://stevehanov.ca/blog/index.php?id=120
http://ejohn.org/blog/dictionary-lookups-in-javascript/
http://ejohn.org/blog/revised-javascript-dictionary-search/
PS: サーバー側の gzip が現在採用されていますが、これはトランスポート層の最適化にすぎず、たとえばオフライン ストレージを最大限に活用するのには役立ちません。25%という膨大な繰り返し性を考えれば、もっとコンパクトに収納できるはずですよね。