2

「カテゴリ」と「テキスト」の 2 つの列を持つ BBC 記事のデータセットがあります。タイプに基づいて記事のカテゴリ (つまり、ビジネス、エンターテイメント) を予測する Naive Bayes アルゴリズムを構築する必要があります。

私はQuantedaでこれを試みており、次のコードがあります:

library(quanteda)

bbc_data <- read.csv('bbc_articles_labels_all.csv')
text <- textfile('bbc_articles_labels_all.csv', textField='text')
bbc_corpus <- corpus(text)
bbc_dfm <- dfm(bbc_corpus, ignoredFeatures = stopwords("english"), stem=TRUE)


# 80/20 split for training and test data
trainclass <- factor(c(bbc_data$category[1:1780], rep(NA, 445)))
testclass <- factor(c(bbc_data$category[1781:2225]))

bbcNb <- textmodel_NB(bbc_dfm, trainclass)
bbc_pred <- predict(bbcNb, testclass)

predict() までスムーズに動作するようです。

Error in newdata %*% log.lik : 
  requires numeric/complex matrix/vector arguments

誰でもこれを解決する方法について洞察を提供できますか? 私はまだテキスト分析と quanteda のコツをつかんでいます。ありがとうございました!

ここにデータセットへのリンクがあります。

4

1 に答える 1