r - ドキュメントタームマトリックスのトークンを (POS コードの) 別のデータフレームに一致させる方法

Question

基本的に、私は言葉の袋を持っています：

source <- VectorSource(text)
corpus <- Corpus(source)
corpus <- tm_map(corpus, content_transformer(tolower))
dtm <- DocumentTermMatrix(cleanset)

などなど

そして、SQLite DB から呼び出した 2 つの列からなるデータフレームがあります。列 1 は何百もの単語のリストで、列 2 は各単語に対応する品詞コードです。

dtm のすべてのトークンをデータフレームの列 1 の同一の用語と一致させようとしています。これにより、各トークンを対応する POS コードと一致させることができます。基本的に、データフレームは辞書のようなものであり、dtm 内の各トークンをその定義に一致させたいと考えています。

これを行うために一連のGREP関数を試しましたが、役に立ちませんでした。これにアプローチする最善の方法について考えている人はいますか?

ありがとう！

score 3 · Accepted Answer

qdap パッケージのルックアップ機能を試してください。

library(qdap)

#create lookup table
words <- c("dog","cat","a", "the","run")
pos <- c("noun","noun","article","article","verb")
random <- c(3,1,2,5,4,1)
df <- data.frame(words, random, pos)

#create doc-term matrix
terms<- c("human", "help","dog","cat","frog", "hello","a","party","run","cheers")
freq <- c(1,2,0,2,3,0,1,4,1,0)
dtm <- data.frame(terms, freq)

#append matches
lookup(dtm$terms, data.frame(df$words,df$pos), missing=NA)

r - ドキュメント ターム マトリックスのトークンを (POS コードの) 別のデータ フレームに一致させる方法

1 に答える 1

Related

Reference

r - ドキュメントタームマトリックスのトークンを (POS コードの) 別のデータフレームに一致させる方法