似たような単語を含む 2 つのコーパスがあります。setdiff
を使用しても実際には私の目的に役立たないほど十分に似ています。そこで、より頻繁に使用される単語のリストまたはコーパス (最終的にワードクラウドを作成するため) を抽出する方法を見つける方向に向かいました (このようなものにしきい値があると仮定すると、おそらく 50% より頻繁になるのでしょうか?) コーパスで # 1、コーパス #2 と比較。
これは私が今持っているすべてです:
> install.packages("tm")
> install.packages("SnowballC")
> install.packages("wordcloud")
> install.packages("RColorBrewer")
> library(tm)
> library(SnowballC)
> library(wordcloud)
> library(RColorBrewer)
> UKDraft = read.csv("UKDraftScouting.csv", stringsAsFactors=FALSE)
> corpus = Corpus(VectorSource(UKDraft$Report))
> corpus = tm_map(corpus, tolower)
> corpus = tm_map(corpus, PlainTextDocument)
> corpus = tm_map(corpus, removePunctuation)
> corpus = tm_map(corpus, removeWords, c("strengths", "weaknesses", "notes", "kentucky", "wildcats", stopwords("english")))
> frequencies = DocumentTermMatrix(corpus)
> allReports = as.data.frame(as.matrix(frequencies))
> SECDraft = read.csv("SECMinusUKDraftScouting.csv", stringsAsFactors=FALSE)
> SECcorpus = Corpus(VectorSource(SECDraft$Report))
> SECcorpus = tm_map(SECcorpus, tolower)
> SECcorpus = tm_map(SECcorpus, PlainTextDocument)
> SECcorpus = tm_map(SECcorpus, removePunctuation)
> SECcorpus = tm_map(SECcorpus, removeWords, c("strengths", "weaknesses", "notes", stopwords("english")))
> SECfrequencies = DocumentTermMatrix(SECcorpus)
> SECallReports = as.data.frame(as.matrix(SECfrequencies))
したがって、「wingspan」という単語の頻度がコーパス #2 (「SECcorpus」) では 100 カウントであるが、コーパス #1 (「コーパス」) では頻度が 150 である場合、その単語を結果のコーパス/リストに含める必要があります。