1

次のコードは、単純な比較クラウドを生成します。

library(tm)
library(wordcloud)
text1<- "cat cat dog dog dog bird bird bird bird bike bike bike"
text2<- "cat cat dog dog dog dog fish fish fish fish car car"
tmpText <- data.frame(c(text1, text2))
row.names(tmpText)<- c("text1", "text2")
ds <- DataframeSource(tmpText)
corp <- Corpus(ds)
corp <- tm_map(corp, PlainTextDocument)
corp <- tm_map(corp, content_transformer(tolower))
corp<- tm_map(corp, removePunctuation)
tm <- TermDocumentMatrix(corp)
tm<- as.matrix(tm)
colnames(tm) <- c("text1", "text2")
comparison.cloud(tm, , scale=c(5, 1))

2 つの質問があります。

1- 2 つの単語が複数のドキュメントで同じ頻度を持っている場合、パッケージがそれを 1 つのサブクラウド VS 他のサブクラウドに表示することをどのように決定するか

2- ドキュメントによると、「各単語 ... その角度位置は、その最大値が発生するドキュメントによって決定されます。」シードなしで比較クラウドを複数回実行しましたが、解釈を理解できませんでした。Google で説明を検索しましたが、あまり見つかりませんでした。このコンテキスト内で「角度位置」とはどういう意味ですか?

助けていただければ幸いです

MJJ

4

1 に答える 1

0

comparison.cloud結果をどのようにレイアウトするかについての私の理解は次のとおりです。ドキュメント マトリックスという用語から始めます。

> tm
      Docs
Terms  text1 text2
  bike     3     0
  bird     4     0
  car      0     2
  cat      2     2
  dog      3     4
  fish     0     4

set.seed(19)
comparison.cloud(tm, scale=c(5, 1), random.order = FALSE, title.size = 1)

再実行する前に毎回 set.seed(19) を実行している上記のコードのプロットを以下に示します。

ここに画像の説明を入力

フォント サイズについては、ドキュメントで説明されているように、「各単語のサイズはその最大偏差にマッピングされます」。したがって、「bird」は text1 では 4 ですが、text2 では 0 であるため、2 つのテキストと最大のフォントの間の最大の「偏差」です。"fish" も 4-0 (ただし、text2 には 4 つのインスタンスがあるため、色が異なります) で、同じサイズのフォントでは、bike は 3-0 であり、最小フォントである偏差なしで "cat" まで続きます。 .

用語の「角度位置」に関して、文書は「その角度位置は、その最大値が発生する文書によって決定される」と不可解に説明しています。プロットは、アルファベット順で同点の前にある最大の偏差項を中央に配置し、明確ではない公式によって他の項を配置しているように見えます。

色は、インスタンスが最も多いテキストによって決定されるため、「犬」は 3 つのテキスト 1 と 4 つのテキスト 2、つまりテキスト 2 は茶色になります。「猫」などのタイは、用語を含む最初のテキストに割り当てられているように見えますが、私はこの解釈をテストしていません.

于 2015-05-23T18:37:16.030 に答える