5

私は2セットのデータを持っています:

  • phpタグのセット (、、などの単語html)

  • テキストのセット

tags ここで、要素内の要素の出現回数を表す Term-Document-Matrix を構築したいと考えていtextます。

R ライブラリ tmと関数を調べましたTermDocumentMatrixが、タグを入力として指定する可能性はありません。

それを行う方法はありますか?

Rを使用するのは素晴らしいことですが、私はあらゆるツール(R、Python、その他)にオープンです。


データを次のように設定しましょう。

TagSet <- data.frame(c("c","java","php","javascript","android"))
colnames(TagSet)[1] <- "tag"

TextSet <- data.frame(c("How to check if a java file is a javascript script java blah","blah blah php"))
colnames(TextSet)[1] <- "text"

TagSet に従って、TextSet の TermDocumentMatrix が必要です。

私はこれを試しました:

myCorpus <- Corpus(VectorSource(TextSet$text))
tdm <- TermDocumentMatrix(myCorpus, control = list(removePunctuation = TRUE, stopwords=TRUE))


>inspect(tdm)
A term-document matrix (7 terms, 2 documents)

Non-/sparse entries: 8/6
Sparsity           : 43%
Maximal term length: 10 
Weighting          : term frequency (tf)

            Docs
Terms        1 2
  blah       1 2
  check      1 0
  file       1 0
  java       2 0
  javascript 1 0
  php        0 1
  script     1 0

しかし、それはテキストの単語に対してテキストをチェックしていますが、既に定義されたタグの存在をチェックしたいのです。

4

2 に答える 2