SVM を使用しているときに、元のデータ セットに対して 3 方向の分割を実行することをお勧めします。たとえば、70/15/15 分割のようにします。
この分割は、トレーニングの場合は %70、テストの場合は %15、「検証」と呼ばれるものの場合は %15 に相当します。
これが良い方法である理由についてはかなり明確ですが、実際にこれを実行するために必要なナットとボルトについてはよくわかりません。多くのオンライン ソースが重要性について議論していますが、プロセスの明確な (または少なくともアルゴリズム的な) 説明を見つけることができないようです。たとえば、sklearn はここでそれについて説明していますが、確かなツールを提供する前に停止します。
ここに私の考えがあります:
- トレーニング セットを使用してアルゴリズムをトレーニングする
- テストセットを使用してエラー率を見つける
- ?? パラメータを微調整する
- 検証セットを使用してエラー率を再度取得します
誰かが私を良いリソースの方向に向けることができれば、私は感謝します.