4

Mahout in Action のコード例のいくつかをさらに詳しく調べています。データに適用されたさまざまなアルゴリズムの RMS を計算する小さなテストを作成しました。

もちろん、複数のパラメーターが RMS に影響を与えますが、評価の実行中に生成される「次の場合には推奨できません」というメッセージが表示されるのは理解できません。

StatsCallable.java を見ると、これはエバリュエーターが NaN 応答に遭遇したときに生成されます。おそらく、トレーニング セットまたはユーザーの設定に、推奨事項を提供するための十分なデータがありません。

RMS スコアは、非常に多くの「推奨できない」ケースの影響を受けていないようです。その仮定は正しいですか?アルゴリズムを RMS だけでなく、トレーニング セット全体に対する「推奨できない」ケースの比率で評価する必要がありますか?

フィードバックをいただければ幸いです。

4

1 に答える 1

4

はい、これは基本的に、見積もりの​​基礎となるデータがまったくなかったことを意味します。これは通常、データのまばらさの症状です。これはまれなことであり、データが非常に小さいか、他のユーザーから切断されているユーザーにのみ発生します。

個人的には、それが本当に重要なパーセンテージ(20%+?)でない限り、それほど大したことではないと思います。多くのユーザーに対してまったくrecを生成できなかった場合は、もっと心配します。

于 2012-04-27T17:44:30.947 に答える