0

私は、ほぼ 90 列の大きなデータセットと約 200k の観測値を持っています。列の 1 つには説明が含まれているため、テキストのみです。しかし、私は NA である記述を 100 ほど持っています。

必要なので、トピック モデルに関する GitHub の Pablo Barbera のコードを試しました。

出力

library(topicmodels)
library(quanteda)

des <- subset(finalMSI, !is.na(description), select=c(description))
corpus_des <- corpus(des$description)
df_des <- dfm(corpus_des, remove=stopwords("spanish"), verbose=TRUE,
              remove_punct=TRUE, remove_numbers=TRUE)
cdes <- dfm_trim(df_des, min_docfreq = 2)

# estimate LDA with K topics
K <- 20
lda <- LDA(cdes, k = K, method = "Gibbs", 
           control = list(verbose=25L, seed = 123, burnin = 100, iter = 500))

LDA(cdes, k = K, method = "Gibbs", control = list(verbose = 25L, : 入力行列の各行には、ゼロ以外のエントリが少なくとも 1 つ含まれている必要があります) のエラー

サブセットに NA がないため、このエラー メッセージがわかりません (このパッケージを使用するのは初めてです)

4

1 に答える 1