私はApache Mahoutが初めてです。Java で Parallel Frequent Pattern Mining (Apache Mahout から) に提供されるメソッド generateTopKFrequentPatterns() を理解したいと思います。
コマンド ライン バージョンのアルゴリズムには、シーケンシャルと mapreduce の 2 つの実行モードがあります。Java メソッドは常に mapreduce で実行されますか? それとも、mapreduce ライブラリが提供する outputcollector を使用しているからでしょうか?
API を使用して複数の Hadoop クラスターでこのアルゴリズムを分散方式で実行するにはどうすればよいですか?
メソッドの定義は次のとおりです。
generateTopKFrequentPatterns(Iterator<Pair<List<A>,Long>> transactionStream,
Collection<Pair<A,Long>> frequencyList,
long minSupport,
int k,
Collection<A> returnableFeatures,
org.apache.hadoop.mapred.OutputCollector<A,List<Pair<List<A>,Long>>> output,
StatusUpdater updater)
throws IOException
これに関するヘルプは大歓迎です。
よろしく、psun