問題タブ [sample-size]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - モデルのトレーニング - データセット全体に対して、予測を構築しようとしているカテゴリに固有のデータの量は?
カテゴリ列 (バットマン) を含むデータフレームがあります。カテゴリ列内の各カテゴリで別の連続変数 (各ボールで実行) を予測しようとしています。
ただし、各カテゴリにはさまざまな量のデータが含まれています。モデルをトレーニングするために連続列のサンプルを数千個提供するものもあれば、ダース未満のものもあります。データが多いカテゴリでは、そのカテゴリに固有のデータに重く重み付けするのがよいでしょうが、データ セット全体として、データが少ないカテゴリではより高く重み付けします。
現時点では、線形回帰モデルを使用しています (これに固定されているわけではありません)。モデルは、カテゴリー x/batsman 列に固有のデータ ポイントを、他の一般的な打者よりも自動的に重み付けしますか? もしそうなら、より多くのデータを持つ打者に固有のデータポイントは、より少ないデータを持つ打者に固有のデータポイントよりも大きく重み付けされるでしょうか? モデルにこれを行うように依頼する方法はありますか?
現在、非常に大きなカテゴリについて、そのカテゴリに固有のデータを抽出してトレーニングしています
一方、小さなカテゴリについては、データセット全体でトレーニングしています
全体としてのデータ量を使用することと、問題のカテゴリに固有のデータを使用することの間で最適な方法を見つける方法はありますか? また、サイズの異なる各カテゴリに固有の最適な方法を見つけるにはどうすればよいでしょうか?