目的
ドキュメントに「love」という単語が表示される回数を数えたいのですが、「not」という単語が前に付いていない場合に限ります。 」は出演としてカウントされません。
質問
tm パッケージをどのように使用して進めますか?
Rコード
以下は、上記を行うために変更したい自己完結型のコードです。
require(tm)
# text vector
my.docs <- c(" I love the Red Hot Chilli Peppers! They are the most lovely people in the world.",
"I do not love the Red Hot Chilli Peppers but I do not hate them either. I think they are OK.\n",
"I hate the `Red Hot Chilli Peppers`!")
# convert to data.frame
my.docs.df <- data.frame(docs = my.docs, row.names = c("positiveText", "neutralText", "negativeText"), stringsAsFactors = FALSE)
# convert to a corpus
my.corpus <- Corpus(DataframeSource(my.docs.df))
# Some standard preprocessing
my.corpus <- tm_map(my.corpus, stripWhitespace)
my.corpus <- tm_map(my.corpus, tolower)
my.corpus <- tm_map(my.corpus, removePunctuation)
my.corpus <- tm_map(my.corpus, removeWords, stopwords("english"))
my.corpus <- tm_map(my.corpus, stemDocument)
my.corpus <- tm_map(my.corpus, removeNumbers)
# construct dictionary
my.dictionary.terms <- tolower(c("love", "Hate"))
my.dictionary <- Dictionary(my.dictionary.terms)
# construct the term document matrix
my.tdm <- TermDocumentMatrix(my.corpus, control = list(dictionary = my.dictionary))
inspect(my.tdm)
# Terms positiveText neutralText negativeText
# hate 0 1 1
# love 2 1 0
さらに詳しい情報
商用パッケージの WordStat から辞書ルール機能を再現しようとしています。辞書ルールを利用することができます。
「概念の正確な測定を達成するための、単語、単語パターン、フレーズ、および近接規則 (NEAR、AFTER、BEFORE など) で構成される階層コンテンツ分析辞書または分類法」
また、この興味深い SO の質問に気付きました:オープンソースのルールベースのパターン マッチング / 情報抽出フレームワーク?
更新 1: @Benのコメントと投稿に基づいて、私はこれを取得しました (ただし、最後はわずかに異なりますが、彼の回答に強く触発されているため、彼の功績によるものです)
require(data.table)
require(RWeka)
# bi-gram tokeniser function
BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 1, max = 2))
# get all 1-gram and 2-gram word counts
tdm <- TermDocumentMatrix(my.corpus, control = list(tokenize = BigramTokenizer))
# convert to data.table
dt <- as.data.table(as.data.frame(as.matrix(tdm)), keep.rownames=TRUE)
setkey(dt, rn)
# attempt at extracting but includes overlaps i.e. words counted twice
dt[like(rn, "love")]
# rn positiveText neutralText negativeText
# 1: i love 1 0 0
# 2: love 2 1 0
# 3: love peopl 1 0 0
# 4: love the 1 1 0
# 5: most love 1 0 0
# 6: not love 0 1 0
次に、行のサブセット設定と行の減算を行う必要があると思います。これにより、次のような結果になります
dt1 <- dt["love"]
# rn positiveText neutralText negativeText
#1: love 2 1 0
dt2 <- dt[like(rn, "love") & like(rn, "not")]
# rn positiveText neutralText negativeText
#1: not love 0 1 0
# somehow do something like
# DT = dt1 - dt2
# but I can't work out how to code that but the require output would be
# rn positiveText neutralText negativeText
#1: love 2 0 0
data.table を使用して最後の行を取得する方法はわかりませんが、このアプローチは WordStats の「NOT NEAR」辞書関数に似ています。たとえば、この場合、「愛」という単語が 1 単語以内に表示されない場合にのみカウントします「not」という単語の直前または直後。
m-gram トークナイザーを行うとしたら、「not」という単語の両側の (m-1) 単語内に出現しない場合にのみ、「love」という単語をカウントすると言っているようなものです。
他のアプローチは大歓迎です!