「カテゴリ」と「テキスト」の 2 つの列を持つ BBC 記事のデータセットがあります。タイプに基づいて記事のカテゴリ (つまり、ビジネス、エンターテイメント) を予測する Naive Bayes アルゴリズムを構築する必要があります。
私はQuantedaでこれを試みており、次のコードがあります:
library(quanteda)
bbc_data <- read.csv('bbc_articles_labels_all.csv')
text <- textfile('bbc_articles_labels_all.csv', textField='text')
bbc_corpus <- corpus(text)
bbc_dfm <- dfm(bbc_corpus, ignoredFeatures = stopwords("english"), stem=TRUE)
# 80/20 split for training and test data
trainclass <- factor(c(bbc_data$category[1:1780], rep(NA, 445)))
testclass <- factor(c(bbc_data$category[1781:2225]))
bbcNb <- textmodel_NB(bbc_dfm, trainclass)
bbc_pred <- predict(bbcNb, testclass)
predict() までスムーズに動作するようです。
Error in newdata %*% log.lik :
requires numeric/complex matrix/vector arguments
誰でもこれを解決する方法について洞察を提供できますか? 私はまだテキスト分析と quanteda のコツをつかんでいます。ありがとうございました!