データマイニングで使用するApriori(バスケット)アルゴリズムの基礎を理解しようとしています。
私が抱えている合併症を例を挙げて説明するのが最善です。
トランザクションデータセットは次のとおりです。
t1: Milk, Chicken, Beer
t2: Chicken, Cheese
t3: Cheese, Boots
t4: Cheese, Chicken, Beer
t5: Chicken, Beer, Clothes, Cheese, Milk
t6: Clothes, Beer, Milk
t7: Beer, Milk, Clothes
上記のminsupは0.5または50%です。
上記から、私のトランザクション数は明らかに7です。つまり、アイテムセットが「頻繁」であるためには、4/7のカウントが必要です。そのため、これは私の頻繁なアイテムセット1でした。
F1:
Milk = 4
Chicken = 4
Beer = 5
Cheese = 4
次に、2番目の改良(C2)の候補を作成し、次のように絞り込みました。
F2:
{Milk, Beer} = 4
これは私が混乱するところです、私がすべての頻繁なアイテムセットを表示するように頼まれた場合、私はすべてを書き留めますかF1
、F2
それとも単に書き留めF2
ますか?F1
私にとっては「セット」ではありません。
次に、定義したばかりの頻繁なアイテムセットの相関ルールを作成し、それらの「信頼度」の数値を計算するように求められます。次のようになります。
Milk -> Beer = 100% confidence
Beer -> Milk = 80% confidence
アイテムセットをここに入れるのは不必要に思えF1
ます。アイテムセットはすべて100%の信頼性があり、実際には何も「関連付け」られないためです。これが、F1
実際に「頻繁」であるかどうかを疑問視している理由です。