具体的な問題に最適な予測/分類モデルを選択しようとしています。私が従うように求められた方法論は次のとおりです。
- データをテストとトレーニングに分けます。
- トレーニング データを使用して具体的なモデルを実行し、10 分割の交差検証で評価して、そのモデルに最適なパラメーターを取得します (与えられたエラーを評価します)。
- 選択した分類モデルごとに最適な構成が得られるまで、他のモデルで繰り返します。
- 最後に、各モデルを最適なパラメーター セットで再実行する必要があります。トレーニングするデータは「trainingdata」であり、結果として得られるエラーは「testdata」に由来する可能性があります (テスト データは、それまで使用されていないことに注意してください)現在、最終的な比較での歪みを避けるために)。
これは、データフレームで 10 倍の CV と共にいくつかの分類モデル (Naive Byes や kNN など) を実行するための実行しやすい関数を備えたパッケージ TunePareto を使用してこれを行ってきました。問題は、私が言及した最後のタスクで発生します。TunePareto で特定のデータフレームをテストとして使用する方法がわかりません。誰でもこれで私を助けることができますか?
いくつかの例を検索しましたが、何も見つかりませんでした。TunePareto がこれを許可しない場合は、代替案について聞いていただければ幸いです。
ありがとう !!!