Rパッケージを使用して新しいテキストデータをトピックに分類する方法があるかどうかは誰にも分かりmallet
ませんか?
このパッケージの一般的なルーチンは次のとおりです。
mallet.instances <- mallet.import(as.character(data$id),
as.character(data$text),
"Documents/Projects/tm/stopwords.txt")
topic.model <- MalletLDA(num.topics=10)
topic.model$loadDocuments(mallet.instances)
topic.model$setAlphaOptimization(20, 100) # optimise parameters after every 20 iterations which will be preceeded by 100 burnin
topic.model$train(1000) # train the model
topic.model$maximize(10) # pick the best topic for each token
しかし、事前トレーニング済みのモデルを使用して新しいデータを分類する方法はどこにも見つかりませんでした。topicmodels
別の方法は、パッケージを使用するか、コマンド ラインからMalletを実行することです。どちらのオプションも合理的です (ただし、Mallet を使用するとトピックモデルよりもはるかに説得力のある結果が得られる傾向があると言わざるを得ません)、R パッケージを使用してモデルを既にトレーニングしておりmallet
、トピックを変更したくない場合は、次の方法を見つけます。mallet
パッケージを使用してデータを分類すると非常に役立ちます。