1

文字ではなく記号として単語を使用してテキストを圧縮したいのですが、それが良い考えかどうかはよくわかりませんが、(科学のために) テストしたいだけです。

問題は、英語のすべての単語を実際に保存することはできないため、スペルチェッカーが単語の派生形式を保存するのと同じように、変更する予定の非常に一般的な単語 (約 1600 単語) のリストを収集したことです。(例: 動詞、形容詞などに応じて、kill、kill-ing、kill-er、kill-s など)

http://en.wikipedia.org/wiki/Canonical_Huffman_code

「辞書」は頻繁に変更されることはなく、解凍ツールで配布できるため、この特別なバージョンのハフマン コーディングが私のニーズに合っているかどうか知りたいです。また、元のハフマン ツリーを作成して正規のハフマン ツリーに変換する前に、単語の頻度を指定する必要があるようです。

ここでポイントが抜けている場合、またはそれが良いアイデアか悪いアイデアかを訂正してもらえますか?

4

1 に答える 1

0

ここで注意すべき点は、この特別なバリアントには、圧縮されたデータではなく、より小さなコードブックのみという利点があるということです。したがって、置き換える部分が連続している場合は、データと一緒にハフマンコードブックを含める必要がある場合はいつでも使用できます。単語は自然に順番に並べることができるので(できるので、そうすべきです)、CanonicalHuffmanCodeを使用します。

于 2012-10-19T08:07:23.067 に答える