私は圧縮ベースのテキスト分類についていくつかの研究を行ってきました.テストファイルで「静的に」実行するために使用するために、エンコーダーによって(トレーニングファイルで)構築された辞書を保存する方法を見つけようとしていますか? これは、UNIX の gzip ユーティリティを使用してまったく可能ですか?
たとえば、sport.txt と atheism.txt の 2 つの「クラス」ファイルを使用しているため、これらのファイルの両方で圧縮を実行し、使用した辞書を保存したいと考えています。次に、テスト ファイル (ラベルが付けられていない、無神論またはスポーツのいずれか) を取得し、この test.txt で事前に作成された辞書を使用して、その辞書/モデルの下でどの程度圧縮されているかを分析できます。
ありがとう