6

データマイニングで使用するApriori(バスケット)アルゴリズムの基礎を理解しようとしています。

私が抱えている合併症を例を挙げて説明するのが最善です。

トランザクションデータセットは次のとおりです。

t1: Milk, Chicken, Beer
t2: Chicken, Cheese
t3: Cheese, Boots
t4: Cheese, Chicken, Beer
t5: Chicken, Beer, Clothes, Cheese, Milk
t6: Clothes, Beer, Milk
t7: Beer, Milk, Clothes

上記のminsupは0.5または50%です。

上記から、私のトランザクション数は明らかに7です。つまり、アイテムセットが「頻繁」であるためには、4/7のカウントが必要です。そのため、これは私の頻繁なアイテムセット1でした。

F1:

Milk = 4
Chicken = 4
Beer = 5
Cheese = 4

次に、2番目の改良(C2)の候補を作成し、次のように絞り込みました。

F2:

{Milk, Beer} = 4

これは私が混乱するところです、私がすべての頻繁なアイテムセットを表示するように頼まれた場合、私はすべてを書き留めますかF1F2それとも単に書き留めF2ますか?F1私にとっては「セット」ではありません。

次に、定義したばかりの頻繁なアイテムセットの相関ルールを作成し、それらの「信頼度」の数値を計算するように求められます。次のようになります。

Milk -> Beer = 100% confidence
Beer -> Milk = 80% confidence

アイテムセットをここに入れるのは不必要に思えF1ます。アイテムセットはすべて100%の信頼性があり、実際には何も「関連付け」られないためです。これが、F1実際に「頻繁」であるかどうかを疑問視している理由です。

4

2 に答える 2

2

サイズが1のアイテムセットは、サポートが適切である場合に頻繁に使用されると見なされます。ただし、ここでは最小しきい値を考慮する必要があります。たとえば、例の最小しきい値が2の場合、F1考慮されません。ただし、最小しきい値1の場合は、そうする必要があります。

その他のアイデアや例については、ここここをご覧ください。

私が助けてくれたことを願っています。

于 2013-01-06T16:47:22.140 に答える
0

最小サポートしきい値(minsup)が4/7の場合、7つのうち4つ以上のトランザクションに表示される場合は、頻繁なアイテムセットのセットに単一のアイテムを含める必要があります。したがって、この例では、次のように含める必要があります。

ミルク=4チキン=4ビール=5チーズ=4

アソシエーションルールの場合、X ==> Yの形式になります。ここで、XとYは互いに素なアイテムセットであり、一般にXとYは空のセットではないと想定されます(これはAprioriによって想定されます)。したがって、アソシエーションルールを生成するには、少なくとも2つのアイテムが必要です。

于 2013-05-04T22:33:10.657 に答える