カテゴリ列 (バットマン) を含むデータフレームがあります。カテゴリ列内の各カテゴリで別の連続変数 (各ボールで実行) を予測しようとしています。
date totalballs(to predict) Batsman (category) Runs on each ball (x variable)
2016-03-18 3 Chris 1
2013-02-09 12 Ben 2
2018-01-07 2 Eoin 1
ただし、各カテゴリにはさまざまな量のデータが含まれています。モデルをトレーニングするために連続列のサンプルを数千個提供するものもあれば、ダース未満のものもあります。データが多いカテゴリでは、そのカテゴリに固有のデータに重く重み付けするのがよいでしょうが、データ セット全体として、データが少ないカテゴリではより高く重み付けします。
現時点では、線形回帰モデルを使用しています (これに固定されているわけではありません)。モデルは、カテゴリー x/batsman 列に固有のデータ ポイントを、他の一般的な打者よりも自動的に重み付けしますか? もしそうなら、より多くのデータを持つ打者に固有のデータポイントは、より少ないデータを持つ打者に固有のデータポイントよりも大きく重み付けされるでしょうか? モデルにこれを行うように依頼する方法はありますか?
現在、非常に大きなカテゴリについて、そのカテゴリに固有のデータを抽出してトレーニングしています
dlem = df.copy()
m = dlem.batsman == "Chris Gayle"
dm = dlem[m]
x = dm.drop(['host', 'batsman', 'runsadded'], axis=1)
y = dn.runsadded
reg = LinearRegression().fit(x_train, y_train)
一方、小さなカテゴリについては、データセット全体でトレーニングしています
x = df.drop(['host', 'batsman', 'runsadded'], axis=1)
y = df.runsadded
reg = LinearRegression().fit(x_train, y_train)
全体としてのデータ量を使用することと、問題のカテゴリに固有のデータを使用することの間で最適な方法を見つける方法はありますか? また、サイズの異なる各カテゴリに固有の最適な方法を見つけるにはどうすればよいでしょうか?