r - row.namesを使用せずにRでデータフレームを再結合する

Question

分析用の従属 Y 変数、独立 X 変数、およびいくつかの "Z" 変数を含む data.frame (または data_frame) から始めます。これは、モデリングの演習には不要な余分な列です。

私がやりたいことは次のとおりです。

Z 変数なしで分析データセットを作成します。
このデータセットをランダムなトレーニングセットとテストセットに分割します。
私の最高のモデルを見つけてください。
このモデルを使用してトレーニングセットとテストセットの両方を予測します。
行単位でトレーニングセットとテストセットを再結合します。そして最後に
これらのデータを列ごとに Z 変数と再結合します。

もちろん、問題が発生するのは最後のステップです。再結合されたトレーニングセットとテストセットの行が元のデータセットの行と一致していることを確認するにはどうすればよいでしょうか。元のセットのrow.names変数を使用しようとするかもしれませんが、これはエラーが発生しやすいクラッジであるというHadleyに同意します(彼ではなく私の言葉です)-他のすべてのデータ列とは異なる扱いを受ける特別な列があるのはなぜですか? ?

1 つの代替手段は、各行を一意に識別する ID 列を作成し、トレーニングセットとテストセットに分割するときにこの列を保持することです (もちろん、すべてのモデリング式から除外します)。これも不器用に思え、すべての数式が読みにくくなります。

これは解決済みの問題に違いありません。これをどのように処理しているか教えてもらえますか? 特に plyr/dplyr/tidyr パッケージフレームワークを使用していますか?

r - row.namesを使用せずにRでデータフレームを再結合する

0 に答える 0

Related

Reference