タグを含む stackoverflow の投稿をできるだけ効率的に (バイナリで) シリアライズおよびデシリアライズしたいと想像してみてください。そのようなシナリオに適したデータ構造はありますか?
Stackoverflow には約 28532 の異なるタグがあり、すべてのタグを含むテーブルを作成して整数を割り当てることができます。さらに、最も一般的なタグの番号が最小になるように頻度で並べ替えることができます。「1 32 45」の形式の文字列のように単純にそれらを保存することは、検索と保存の観点からは少し効率が悪いようです
もう 1 つのアイデアは、タグを変数 bitarray として保存することです。これは、ルックアップとシリアル化の観点から魅力的です。最も一般的なタグが最初にあるため、タグを少量のメモリに収めることができる可能性があります。
もちろん、問題は、一般的ではないタグが巨大なビット配列を生成することです。大きな範囲の 0 のビット配列を「圧縮」するための標準はありますか? それとも、他の構造を完全に使用する必要がありますか?
編集
DB ソリューションやテーブル全体をメモリに保持する必要があるソリューションを探しているのではなく、個々のアイテムをフィルタリングするための構造を探しています