私は、mahout の PFP Growth 実装の最新のトランク バージョンを Hadoop クラスター上で使用して、movielens データセットの頻繁なパターンを特定しています。前のステップで、pfp 成長アルゴリズムがその入力形式を必要とするため、データセットをトランザクションのリストに変換しました。
ただし、得られる出力は予期しないものです
たとえば、アイテム 1017 の場合、唯一の頻繁なパターンは次のとおりです。
1017 ([100,1017, 50])
また、その行に X >= 50 を含む ([1017], X) のようなパターンも期待できます。
入力例もテストセットします
1,2,3
1,2,3
1,3
そして私が得る出力は
1 ([1, 3],3), ([1],3), ([1, 3, 2],2)
2 ([1, 3, 2],2)
3 ([1, 3],3), ([1, 3, 2],2)
([1,2],2) のような欠落しているパターンがあります。
なにが問題ですか?