Apache Mahout
アルゴリズムを使って頻出パターンを見つけようとしています。fpg
最初に、元の入力ファイル (サイズ 270 MB) のサブセットに対して mahout を実行しfList
、 、fpgrowth
、parallelcounting
およびfrequentPatterns
ファイル/フォルダーを生成しました。次にMahout
fpg
、サイズが 10 GB で、268,752 の固有の機能と 201590007 行の完全なファイルを探しました。ただし、frequentPatterns
ファイルは生成されません。fList
、fpgrowth
およびParallelcounting
ファイルが生成されました。ログに例外はありません。ジョブステータスは「成功」です。
私の理解によると、Mahout FPG
プログラム シーケンスは 3 つの map reduce プログラム ( ParallelCounting
、FPGrowth
、Aggregator
) です。何らかの理由で、このプログラムを完全なファイルで実行すると、ファイルAggregator
を生成するはずの が開始されませんFrequentPatterns
。何が起こっているかを確認するためにいくつかのロガーを追加し、jar ファイルを再生成mahout
し、完全なファイルを再実行しました。例外はなく、後のログstartParallelFPGrowth()
は印刷されません。
以下の構成を 3 ノード Hadoop クラスターで使用しています。
mahout fpg -i mahoutFPGInput/mahoutFPGOnlineInput.dat -o fpgOutput -k 100 -s 100 -g 20000 -tc 10 -method mapreduce
誰かが同様の問題に遭遇しましたか?