変更されない大きな静的バイナリ (10 GB) があります。
小さな文字列 (それぞれ 15 バイト以下) を入力として取り、どの文字列が最も頻度が低いかを判断できるようにしたいと考えています。
バイナリ全体を実際に検索しないと、これを正確に判断できないことを理解しているので、近似値になることはわかっています。
ALOT である約 256^15 バイトが必要になるため、ツリー/ハッシュ テーブルの構築は実行できません。
このタスク専用の約 100GB のディスク容量と 8GB の RAM がありますが、実際にファイルを調べずにこのタスクを達成する方法を見つけることができないようです。
大きなバイナリを準備するのに十分な時間があります。その後、最も頻度の低い文字列を何度も決定する必要があります。
何か案は?
ありがとう!ダニエル。
(ところで:それが問題であれば、私はPythonを使用しています)