Mahout の ItemSimilarityJob を使用して、次のような入力 .csv ファイルでアイテムの類似性を計算しています。
user_id(numbers only), song_id(numbers only), listens(numbers only)
これらのパラメータで ItemSimilarityJob を実行すると
$MAHOUT_HOME/bin/mahout org.apache.mahout.cf.taste.hadoop.similarity.item.ItemSimilarityJob --input inputcsv/ --output outputcsv --similarityClassname SIMILARITY_PEARSON_CORRELATION --tempDir tempcsv --booleanData true
music/csvoutput ディレクトリ内に空白の part-r-00000 ファイルを取得します。ただし、music/csvtemp 内には多くのファイルがあります。その理由は何ですか?