Apache Mahoutアルゴリズムを使って頻出パターンを見つけようとしています。fpg最初に、元の入力ファイル (サイズ 270 MB) のサブセットに対して mahout を実行しfList、 、fpgrowth、parallelcountingおよびfrequentPatternsファイル/フォルダーを生成しました。次にMahout fpg、サイズが 10 GB で、268,752 の固有の機能と 201590007 行の完全なファイルを探しました。ただし、frequentPatternsファイルは生成されません。fList、fpgrowthおよびParallelcountingファイルが生成されました。ログに例外はありません。ジョブステータスは「成功」です。
私の理解によると、Mahout FPGプログラム シーケンスは 3 つの map reduce プログラム ( ParallelCounting、FPGrowth、Aggregator) です。何らかの理由で、このプログラムを完全なファイルで実行すると、ファイルAggregatorを生成するはずの が開始されませんFrequentPatterns。何が起こっているかを確認するためにいくつかのロガーを追加し、jar ファイルを再生成mahoutし、完全なファイルを再実行しました。例外はなく、後のログstartParallelFPGrowth()は印刷されません。
以下の構成を 3 ノード Hadoop クラスターで使用しています。
mahout fpg -i mahoutFPGInput/mahoutFPGOnlineInput.dat -o fpgOutput -k 100 -s 100 -g 20000 -tc 10 -method mapreduce
誰かが同様の問題に遭遇しましたか?