0

Mahout の ItemSimilarityJob を使用して、次のような入力 .csv ファイルでアイテムの類似性を計算しています。

user_id(numbers only), song_id(numbers only), listens(numbers only)

これらのパラメータで ItemSimilarityJob を実行すると

$MAHOUT_HOME/bin/mahout org.apache.mahout.cf.taste.hadoop.similarity.item.ItemSimilarityJob --input inputcsv/ --output outputcsv --similarityClassname SIMILARITY_PEARSON_CORRELATION --tempDir tempcsv --booleanData true

music/csvoutput ディレクトリ内に空白の part-r-00000 ファイルを取得します。ただし、music/csvtemp 内には多くのファイルがあります。その理由は何ですか?

4

3 に答える 3

1

おそらく、あなたの入力はあなたが思っているところにあるか、あなたが思っているところを示していません。通常、 --input は完全修飾パスです。それを確認して試してください。または、データが小さすぎて類似性を計算できません。

于 2013-04-28T09:19:30.893 に答える
1

私の経験と答えが他の人に役立つことを願っています。本当に貴重な時間を節約できたはずです。--threshold パラメーターの値も確認する必要があります。設定が高すぎる (0.01 であっても) と、Mahout はデータをフィルタリングし、最終的に空のファイルを生成します。私の場合、これを引き起こしたのはランダムに生成されたデータでした。

于 2013-06-11T14:39:11.657 に答える
0

mahout org.apache.mahout.cf.taste.hadoop.similarity.item.ItemSimilarityJob -i intro.csv --output outputcsv --similarityClassname SIMILARITY_PEARSON_CORRELATION -m 3 --tempDir tempcsv --threshold 0.7 --booleanData

これはそれを使用して動作します

于 2016-05-17T10:48:52.297 に答える