Apriori アルゴリズムを使用して、一連のタプルのようなデータセットから関連付けルールをフェッチすることを読みました。最も頻繁に使用される 1 アイテム セット、2 アイテム セットなどを見つけるのに役立ちます。私の問題は少し異なります。次のように、それぞれがさまざまなサイズのタプルのセットであるデータセットがあります。
(1, 234, 56, 32) (25, 4575, 575, 464, 234, 32) . . . 異なるサイズのタプル
エントリのドメインは巨大です。つまり、各タプルのバイナリ ベクトルを取得できず、タプルに項目「x」が存在するかどうかがわかります。したがって、ここでは Apriori アルゴリズムが適しているとは思えません。
私の目標は、次のような質問に答えることです。
- ほとんどの場合 234 で発生する 5 つの数字のランク付けされたリストを教えてください
- 最も頻繁に同時に発生する、サイズ「k」の上位 5 つのサブセットを教えてください
要件 : 出力における数値の正確な表現 (概算ではない)、数値のドメインは 10 億から 10 億と考えることができます。
ここに標準アルゴリズムが適合しない場合は、単純なカウント方法を使用する予定です。しかし、私を助けることができるアルゴリズムを知っているなら、私に知らせてください