r - ドキュメントタームマトリックスの「違い」

Question

政治について話し、数学について話す一連の100文書があるとします(奇妙な組み合わせですが、それはわかっています)。私の目標は、多次元スケーリング分析、ネットワーク分析、som などの xy throught メソッドでそれらを表現することです。一連のドキュメント全体を考慮すると、次のようになります。7030

100 個の要素を持つコーパス ( docs ) を作成します。
コーパスから文書用語マトリックス ( dtm ) を作成します。
dtm から、ドキュメントを構成する用語またはドキュメント自体についての距離 ( dist ) のマトリックスを作成します (表現したいものに従って)。

もちろん、2 つのグラフィックを別々に作成することもできますが、別のことをしたいと考えています。3 つのコーパス ( docs_tot、docs_P、docs_M ) と 3 つのドキュメント用語マトリックス ( dtm_tot、dtm_P、dtm_M ) があります。

ソリューション:

1) xy 上のドキュメントの合計を表し、政治ドキュメントと数学ドキュメントを異なる色で表します。このようにして、それらが xy 上の自然なクラスターを表しているかどうかを確認できます。

2) 違いに関するネットワーク分析を作成します。たとえば、 dtm_Pにはdtm_totドキュメント (100)のサブセット (70) しかないことを知って、dtm_Pとdtm_totをサブトラックする概念的な方法はありますか?

score 2 · Accepted Answer

これは、の使用を検討できるように思えますcomparison.cloud()。wordcloudパッケージのヘルプページの例を次に示します。

library(tm)
library(wordcloud)
data(SOTU)
corp <- SOTU
corp <- tm_map(corp, content_transformer(tolower))
corp <- tm_map(corp, removeNumbers)
corp <- tm_map(corp, function(x)removeWords(x,stopwords()))
corp <- tm_map(corp, removePunctuation)
term.matrix <- TermDocumentMatrix(corp)
term.matrix <- as.matrix(term.matrix)
colnames(term.matrix) <- c("SOTU 2010","SOTU 2011")
comparison.cloud(term.matrix,max.words=40,random.order=FALSE)

これは、ここに示すように、2 つ以上のグループにも機能します。

お役に立てれば。

r - ドキュメントタームマトリックスの「違い」

1 に答える 1

Related

Reference