私はRandomForestの実行に取り組んでいます。使用済みおよび未使用のサイトを表すポイント データをインポートし、ラスター GIS レイヤーからラスター スタックを作成しました。使用済みおよび未使用のすべてのポイントとその基になるラスター値がアタッチされた SpatialPointDataFrame を作成しました。
require(sp)
require(rgdal)
require(raster)
#my raster stack
xvariables <- stack(rlist) #rlist = a list of raster layers
# Reading in the spatial used and unused points.
ldata <- readOGR(dsn=paste(path, "DATA", sep="/"), layer=used_avail)
str(Ldata@data)
#Attach raster values to point data.
v <- as.data.frame(extract(xvariables, ldata))
ldata@data = data.frame(ldata@data, v[match(rownames(ldata@data), rownames(v)),])
次に、このデータを使用してランダム フォレストを実行する予定です。問題は、非常に大きなデータ セット (40,000 以上のデータ ポイント) があることです。データをサブサンプリングする必要がありますが、これを行う方法を理解するのに非常に苦労しています。sample() 関数を使用してみましたが、SpatialPointsDataFram があるため機能しないと思いますか? 私はRが初めてで、どんなアイデアでも本当に感謝しています。
ありがとう!