Mahout in Action のコード例のいくつかをさらに詳しく調べています。データに適用されたさまざまなアルゴリズムの RMS を計算する小さなテストを作成しました。
もちろん、複数のパラメーターが RMS に影響を与えますが、評価の実行中に生成される「次の場合には推奨できません」というメッセージが表示されるのは理解できません。
StatsCallable.java を見ると、これはエバリュエーターが NaN 応答に遭遇したときに生成されます。おそらく、トレーニング セットまたはユーザーの設定に、推奨事項を提供するための十分なデータがありません。
RMS スコアは、非常に多くの「推奨できない」ケースの影響を受けていないようです。その仮定は正しいですか?アルゴリズムを RMS だけでなく、トレーニング セット全体に対する「推奨できない」ケースの比率で評価する必要がありますか?
フィードバックをいただければ幸いです。