文字ではなく記号として単語を使用してテキストを圧縮したいのですが、それが良い考えかどうかはよくわかりませんが、(科学のために) テストしたいだけです。
問題は、英語のすべての単語を実際に保存することはできないため、スペルチェッカーが単語の派生形式を保存するのと同じように、変更する予定の非常に一般的な単語 (約 1600 単語) のリストを収集したことです。(例: 動詞、形容詞などに応じて、kill、kill-ing、kill-er、kill-s など)
http://en.wikipedia.org/wiki/Canonical_Huffman_code
「辞書」は頻繁に変更されることはなく、解凍ツールで配布できるため、この特別なバージョンのハフマン コーディングが私のニーズに合っているかどうか知りたいです。また、元のハフマン ツリーを作成して正規のハフマン ツリーに変換する前に、単語の頻度を指定する必要があるようです。
ここでポイントが抜けている場合、またはそれが良いアイデアか悪いアイデアかを訂正してもらえますか?