私の質問:Rのsvmにフィードする機能としてbag-of-wordsモデルをどのように適用できますか?
私はいくつかのデータを低く生成しました:
Title Salary
"Software Engineer" 100000
"Software Engineer" 120000
"Junior Software Engineer" 60000
"Junior Software Engineer" 70000
"Senior Software Engineer" 130000
read.tableを使用すると、2 * nの(文字、数値)の行列を取得できます。「単語の袋」をタイトル列に適用したいと思います。ただし、エントリのいずれかを手動で分割した場合、たとえば
jobs['Title'][1,] <- strsplit(jobs['Title'][1,], ' ')
これは与える:
Title Salary
"Software" 100000
"Software Engineer" 120000
"Junior Software Engineer" 60000
"Junior Software Engineer" 70000
"Senior Software Engineer" 130000
思ったより:
Title Salary
["Software", "Engineer"] 100000
"Software Engineer" 120000
"Junior Software Engineer" 60000
"Junior Software Engineer" 70000
"Senior Software Engineer" 130000
SVMを呼び出すための私のコードは次のようになります。
jobs <- read.table("jobs.data", header = TRUE, as.is = TRUE)
index <- 1:nrow(jobs)
testindex <- sample(index, trunc(length(index)/3))
testset <- jobs[testindex,]
trainset <- jobs[-testindex,]
svm.model <- svm(Salary ~ ., data = trainset, cost = 10, gamma = 1)
svm.pred <- predict(svm.model, testset)
私はそれを間違っていると思いますが、私はそれを行う方法を見つけていません、誰かが私がそれを行うべき方法を共有できますか?
ありがとうございました。