1

Apache Mahoutアルゴリズムを使って頻出パターンを見つけようとしています。fpg最初に、元の入力ファイル (サイズ 270 MB) のサブセットに対して mahout を実行しfList、 、fpgrowthparallelcountingおよびfrequentPatternsファイル/フォルダーを生成しました。次にMahout fpg、サイズが 10 GB で、268,752 の固有の機能と 201590007 行の完全なファイルを探しました。ただし、frequentPatternsファイルは生成されません。fListfpgrowthおよびParallelcountingファイルが生成されました。ログに例外はありません。ジョブステータスは「成功」です。

私の理解によると、Mahout FPGプログラム シーケンスは 3 つの map reduce プログラム ( ParallelCountingFPGrowthAggregator) です。何らかの理由で、このプログラムを完全なファイルで実行すると、ファイルAggregatorを生成するはずの が開始されませんFrequentPatterns。何が起こっているかを確認するためにいくつかのロガーを追加し、jar ファイルを再生成mahoutし、完全なファイルを再実行しました。例外はなく、後のログstartParallelFPGrowth()は印刷されません。

以下の構成を 3 ノード Hadoop クラスターで使用しています。

 mahout fpg -i mahoutFPGInput/mahoutFPGOnlineInput.dat -o fpgOutput -k 100 -s 100 -g 20000 -tc 10 -method mapreduce

誰かが同様の問題に遭遇しましたか?

4

0 に答える 0