python - 同じ性質の小さなファイルの大きなコレクションがあります。それらすべてに辞書を作成して、各ファイルを個別に圧縮することはできますか?

Question

コーパスは文字列 (ファイル名) とそのチェックサムで構成されているため、通常のテキストよりもエントロピーが高いと予想されます。また、コレクションが大きすぎて分析できないため、サンプルを抽出してグローバルディクショナリを作成します。私のタスクに優れた機械学習アプローチはありますか?

どのアルゴリズムまたはより良いライブラリを使用する必要がありますか?

問題が発生した場合に備えて、Pythonを使用しています。

score 0 · Accepted Answer

スパースコーディングを使用することをお勧めします。データセットを使用して、データをエンコードするために使用される過剰な辞書を推測できます。データが実際に同様の性質のものである場合、これはうまくいく可能性があります。

1 に答える 1