0

私は、mahout の PFP Growth 実装の最新のトランク バージョンを Hadoop クラスター上で使用して、movielens データセットの頻繁なパターンを特定しています。前のステップで、pfp 成長アルゴリズムがその入力形式を必要とするため、データセットをトランザクションのリストに変換しました。

ただし、得られる出力は予期しないものです

たとえば、アイテム 1017 の場合、唯一の頻繁なパターンは次のとおりです。

1017 ([100,1017, 50])

また、その行に X >= 50 を含む ([1017], X) のようなパターンも期待できます。

入力例もテストセットします

1,2,3

1,2,3

1,3

そして私が得る出力は

1 ([1, 3],3), ([1],3), ([1, 3, 2],2)

2 ([1, 3, 2],2)

3 ([1, 3],3), ([1, 3, 2],2)

([1,2],2) のような欠落しているパターンがあります。

なにが問題ですか?

4

2 に答える 2

1

その理由は、サポートが大きくない場合、FP アルゴリズムは頻出パターンのサブセットを出力しないためです。ここで説明されています: http://www.searchworkings.org/forum/-/message_boards/view_message/396093

使用するためにコードを書き直す必要があります。

于 2012-05-11T05:47:42.060 に答える
0

論文とコードを読んだところ、PFP アルゴリズムがまったく正しくないようです。なぜ誰も気づかなかったのか不思議です。

FP-Growth についてすでに知っていて、この論文とコードを読むのに数時間かかるだけなら、それは明らかです。

于 2017-09-20T15:17:53.590 に答える