2

MovieLens 100k データセットは、5 分割クロス検証用のトレーニング セットとテスト セットの 5 つのペアを提供します。ただし、最適なパラメーター値を取得するには、テスト セットでテストする前に検証セットを使用する必要があることを学びました。

元の分割では、5 つの「テスト セット」が実際には検証セットであると想定しています。そうであれば、モデルのパフォーマンスをテストできる「テスト セット」はありません。それでは、サウンド トレーニング - 検証 - テスト プロセスを実行するために、MovieLens データを再分割しますか?

ありがとう!

4

1 に答える 1

2

movielensセットのテストには、実際には2つのオプションがあります。

最初のオプション:ユーザーは5つのグループに分割され、各グループでは基本グループとテストグループにも分割されます。基本グループはアルゴリズムを「トレーニング」するためのものであり、テストグループはテストするためのものです。5つの異なるグループがあるため、学習とテストのプロセスを5回実行でき、最終的にはさまざまなセットの統計情報を得ることができます。

2番目のオプション:100kセットのすべてのユーザーには20の評価があります。2番目のケースでは、2つのセットaとbがあります。各ユーザーには、aに10の評価、bに10の評価があります。したがって、集合aから学習し、集合bを推測して比較することができます。

もちろん、完全なセットがあれば、必要に応じて独自のグループを設定することもできます。

于 2013-01-21T14:21:29.833 に答える