私は2セットのデータを持っています:
php
タグのセット (、、などの単語html
)テキストのセット
tags
ここで、要素内の要素の出現回数を表す Term-Document-Matrix を構築したいと考えていtext
ます。
R ライブラリ tmと関数を調べましたTermDocumentMatrix
が、タグを入力として指定する可能性はありません。
それを行う方法はありますか?
Rを使用するのは素晴らしいことですが、私はあらゆるツール(R、Python、その他)にオープンです。
データを次のように設定しましょう。
TagSet <- data.frame(c("c","java","php","javascript","android"))
colnames(TagSet)[1] <- "tag"
TextSet <- data.frame(c("How to check if a java file is a javascript script java blah","blah blah php"))
colnames(TextSet)[1] <- "text"
TagSet に従って、TextSet の TermDocumentMatrix が必要です。
私はこれを試しました:
myCorpus <- Corpus(VectorSource(TextSet$text))
tdm <- TermDocumentMatrix(myCorpus, control = list(removePunctuation = TRUE, stopwords=TRUE))
>inspect(tdm)
A term-document matrix (7 terms, 2 documents)
Non-/sparse entries: 8/6
Sparsity : 43%
Maximal term length: 10
Weighting : term frequency (tf)
Docs
Terms 1 2
blah 1 2
check 1 0
file 1 0
java 2 0
javascript 1 0
php 0 1
script 1 0
しかし、それはテキストの単語に対してテキストをチェックしていますが、既に定義されたタグの存在をチェックしたいのです。