基本的に、私は言葉の袋を持っています:
source <- VectorSource(text)
corpus <- Corpus(source)
corpus <- tm_map(corpus, content_transformer(tolower))
dtm <- DocumentTermMatrix(cleanset)
などなど
そして、SQLite DB から呼び出した 2 つの列からなるデータ フレームがあります。列 1 は何百もの単語のリストで、列 2 は各単語に対応する品詞コードです。
dtm のすべてのトークンをデータフレームの列 1 の同一の用語と一致させようとしています。これにより、各トークンを対応する POS コードと一致させることができます。基本的に、データフレームは辞書のようなものであり、dtm 内の各トークンをその定義に一致させたいと考えています。
これを行うために一連のGREP関数を試しましたが、役に立ちませんでした。これにアプローチする最善の方法について考えている人はいますか?
ありがとう!