LDA を使用して、A と B という 2 つのテキスト ドキュメントのトピック モデルを構築しました。ドキュメント A はコンピューター サイエンスとの関連性が高く、ドキュメント B は地球科学との関連性が高いと言えます。次に、次のコマンドを使用してldaをトレーニングしました:
text<- c(A,B) # introduced above
r <- Corpus(VectorSource(text)) # create corpus object
r <- tm_map(r, tolower) # convert all text to lower case
r <- tm_map(r, removePunctuation)
r <- tm_map(r, removeNumbers)
r <- tm_map(r, removeWords, stopwords("english"))
r.dtm <- TermDocumentMatrix(r, control = list(minWordLength = 3))
my_lda <- LDA(r.dtm,2)
my_lda を使用して、C などの新しいドキュメントのコンテキストを予測し、それがコンピューター サイエンスまたは地球科学に関連しているかどうかを確認したいと考えています。このコードを予測に使用するかどうかはわかっています
x<-C# a new document (a long string) introduced above for prediction
rp <- Corpus(VectorSource(x)) # create corpus object
rp <- tm_map(rp, tolower) # convert all text to lower case
rp <- tm_map(rp, removePunctuation)
rp <- tm_map(rp, removeNumbers)
rp <- tm_map(rp, removeWords, stopwords("english"))
rp.dtm <- TermDocumentMatrix(rp, control = list(minWordLength = 3))
test.topics <- posterior(my_lda,rp.dtm)
ラベル 1 または 2 が付けられますが、1 または 2 が何を表しているのかわかりません... それがコンピューター サイエンス関連または地球科学関連を意味する場合、どうすればわかりますか?