machine-learning - 開発セットを使用しない場合のバイアス

Question

10 分割交差検証を使用して、Weka で小さな分類タスクを実行しています。機能の選択と分類子のパラメーターの調整には、データの小さなサブセットを使用しました。通常、トレーニングと開発セットを使用する必要があることはわかっていますが、時間と計算能力が不足しているため、すべてのデータの小さなサブセットを使用しました。これは何らかの形で結果を偏らせますか? ありがとう！

score 1 · Accepted Answer

はい。バイアスの定義そのもので、小さなセットを使用するということは、トレーニングすることに決めたどのセクションに対しても、より高いバイアスを持つことを意味します。ただし、より大きなデータセットから小さなサンプルをランダムに選択すると、このバイアスは大幅に最小化されます。

小さなデータセットを使用しているだけの場合、10 分割交差検証はあまり意味がありません。相互検証の考え方は、大規模なデータセットを複数の部分に分割し、それらの部分をトレーニングセットとテストセットとして交互に使用してトレーニングし、すべての相互検証セットで最適なソリューションが見つかるまで反復することです。

時間や計算能力があまりない場合、私の最初の提案は、10 倍の CV チェックを減らすことです。これは、同じ計算時間でデータセットのより多くの部分を含めることができることを意味し、Weka で多数の異なるモデルを迅速に評価してから、どちらが先に進む可能性が高いかを判断できます。

オプションがある場合は、最終的なデータ実行のためにフルセットを使用することを強くお勧めしますが、使用するアルゴリズムを決定している間は、フルセットの一部を使用することは悪くありません.

machine-learning - 開発セットを使用しない場合のバイアス

1 に答える 1

Related

Reference