分析用の従属 Y 変数、独立 X 変数、およびいくつかの "Z" 変数を含む data.frame (または data_frame) から始めます。これは、モデリングの演習には不要な余分な列です。
私がやりたいことは次のとおりです。
- Z 変数なしで分析データ セットを作成します。
- このデータ セットをランダムなトレーニング セットとテスト セットに分割します。
- 私の最高のモデルを見つけてください。
- このモデルを使用してトレーニング セットとテスト セットの両方を予測します。
- 行単位でトレーニング セットとテスト セットを再結合します。そして最後に
- これらのデータを列ごとに Z 変数と再結合します。
もちろん、問題が発生するのは最後のステップです。再結合されたトレーニング セットとテスト セットの行が元のデータ セットの行と一致していることを確認するにはどうすればよいでしょうか。元のセットのrow.names変数を使用しようとするかもしれませんが、これはエラーが発生しやすいクラッジであるというHadleyに同意します(彼ではなく私の言葉です)-他のすべてのデータ列とは異なる扱いを受ける特別な列があるのはなぜですか? ?
1 つの代替手段は、各行を一意に識別する ID 列を作成し、トレーニング セットとテスト セットに分割するときにこの列を保持することです (もちろん、すべてのモデリング式から除外します)。これも不器用に思え、すべての数式が読みにくくなります。
これは解決済みの問題に違いありません。これをどのように処理しているか教えてもらえますか? 特に plyr/dplyr/tidyr パッケージ フレームワークを使用していますか?