1
    library("RTextTools", "topicmodels", "tm")         
    matrix <- create_matrix(data, language="english", removeNumbers=TRUE, stemWords = TRUE, weighting=weightTf)
    > matrix
    #DocumentTermMatrix (documents: 3104, terms: 7699)
    #Non-/sparse entries: 28138/23869558
    #Sparsity           : 100%
    #Maximal term length: 19
    #Weighting          : term frequency (tf)

これは、出力として提供されるメタデータです。私が知りたいのは、単語が語幹処理されていることを実際に確認したり、非スパース エントリを観察したりするコマンドがあるかどうかです。nrow(matrix) と ncol(matrix) を使用して、マトリックスのサイズを把握しましたが、マトリックスを分解するにはさらに助けが必要です。NYTimes データセットを使用しています。

4

0 に答える 0