apache - mahout PFPGrowth アルゴリズムの間違った出力?

Question

私は、mahout の PFP Growth 実装の最新のトランクバージョンを Hadoop クラスター上で使用して、movielens データセットの頻繁なパターンを特定しています。前のステップで、pfp 成長アルゴリズムがその入力形式を必要とするため、データセットをトランザクションのリストに変換しました。

ただし、得られる出力は予期しないものです

たとえば、アイテム 1017 の場合、唯一の頻繁なパターンは次のとおりです。

1017 ([100,1017, 50])

また、その行に X >= 50 を含む ([1017], X) のようなパターンも期待できます。

入力例もテストセットします

1,2,3

1,2,3

1,3

そして私が得る出力は

1 ([1, 3],3), ([1],3), ([1, 3, 2],2)

2 ([1, 3, 2],2)

3 ([1, 3],3), ([1, 3, 2],2)

([1,2],2) のような欠落しているパターンがあります。

なにが問題ですか？

score 1 · Accepted Answer

その理由は、サポートが大きくない場合、FP アルゴリズムは頻出パターンのサブセットを出力しないためです。ここで説明されています： http://www.searchworkings.org/forum/-/message_boards/view_message/396093

使用するためにコードを書き直す必要があります。

score 0 · Accepted Answer

論文とコードを読んだところ、PFP アルゴリズムがまったく正しくないようです。なぜ誰も気づかなかったのか不思議です。

FP-Growth についてすでに知っていて、この論文とコードを読むのに数時間かかるだけなら、それは明らかです。

apache - mahout PFPGrowth アルゴリズムの間違った出力?

2 に答える 2

Related

Reference