Rにあるデータセットを、トレーニング用に2/3、テスト用に1/3に分割しようとしています。1 つの分類変数と 7 つの数値変数があります。各観測値は、A、B、C、または D のいずれかに分類されます。
簡単にするために、分類変数 cl は、最初の 100 観測では A、観測 101 から 200 では B、300 までは C、400 までは D であるとしましょう。 A、B、C、および D のそれぞれの観測値の (単純にデータ セット全体の観測値の 2/3 を取得するのではなく)。
などのデータのサブセットからサンプリングしようとするとsample(subset(data, cl=='A'))
、行ではなく列が並べ替えられます。
要約すると、私の目標は、A、B、C、および D のそれぞれから 67 個のランダムな観測値をトレーニング データとして取得し、A、B、C、および D のそれぞれの残りの 33 個の観測値をテスト データとして保存することです。私と非常によく似た質問を見つけましたが、複数の変数を考慮していませんでした。