library("RTextTools", "topicmodels", "tm")
matrix <- create_matrix(data, language="english", removeNumbers=TRUE, stemWords = TRUE, weighting=weightTf)
> matrix
#DocumentTermMatrix (documents: 3104, terms: 7699)
#Non-/sparse entries: 28138/23869558
#Sparsity : 100%
#Maximal term length: 19
#Weighting : term frequency (tf)
これは、出力として提供されるメタデータです。私が知りたいのは、単語が語幹処理されていることを実際に確認したり、非スパース エントリを観察したりするコマンドがあるかどうかです。nrow(matrix) と ncol(matrix) を使用して、マトリックスのサイズを把握しましたが、マトリックスを分解するにはさらに助けが必要です。NYTimes データセットを使用しています。