私は著者属性の問題のために R で liblinear を使用しており、liblinear の cross パラメータを使用して (: のようなものLiblineaR(data=mydata, labels=factor(mydata[,1]), cost=co, cross=nrow(mydata)
)、実際にすべての行を反復処理して、どのテキストが誤分類されたか何か:
for (i in 1:nrow(data)){
x = data[,2:ncol(data)]
y = factor(data[,1])
xTrain = x[-i,]
xTest = x[i,]
yTrain = y[-i]
yTest = y[i]
m=LiblineaR(data=xTrain, labels=yTrain, cost=co)
p=predict(m, xTest)}
両方の方法で同じ結果が得られるはずですが、一部のデータセットでは、最初のバージョンの方が 2 番目のバージョンよりもはるかに優れた結果が得られます。たとえば、96% の精度と 50% の精度 (すべての作品は、同じ作者)。この種のことを扱った人はいますか?