3

ランダム フォレストを使用して予測を行うために見つけたすべての例には、実際の答えが既にあります (つまり、テスト セットにはラベルがあります)。その列がない場合はどうしますか?

たとえば、このチュートリアルでは虹彩データを使用しています: http://mkseo.pe.kr/stats/?p=220

これを実際に行っていた場合、テスト データセットには列 [1,4] があり、列 5 はありません。列 5 なしでこれを実行しようとすると、データフレームが同じサイズではないというエラーが発生します。そうではありません。

回答の列がまだない場合、どのように予測を立てますか?

上記のリンクからの抜粋を使用して説明を編集します。

トレーニング セットとテスト セットを準備します。

 test = iris[ c(1:10, 51:60, 101:110), ]
 train = iris[ c(11:50, 61:100, 111:150), ]

テスト データ フレームには、完全な種の列があります。トレーニング セットから成長する森林に基づいて種を予測しようとしています。だから私がいる位置は、実行した後です:

 test <- test[-5] 

私は今、外に出てたくさんの植物の測定値を収集し、トレーニング データから成長させた樹木モデルに基づいて種を知りたいと思っていた立場にいます。では、テスト データフレームの残りのデータとトレーニング データフレームを使用して成長したフォレストに基づいて、削除したばかりの Species 列を予測するにはどうすればよいでしょうか?

4

1 に答える 1