テキストのドキュメントとそのテキスト内で検索したい 2 つの単語を取り込む関数があり、これらの 2 つの単語がテキスト内で隣り合って現れる確率を計算しようとしています。だから私が最初にしたことは、それらをペアにすることでした。私のドキュメントは「words」と呼ばれ、関数はドキュメント、word1、word2 の 3 つの引数を取ります。テキスト内でそれらが隣り合って何回出現するかを調べたいです。
pairs <- c()
# Iterates through and creates every possible pair of adjacent words
for (i in 1:(length(words)-1)) {
temp <- paste(words[i],words[i+1], sep = ":") # Temporarily group adjacent words together with a : in between
temp <- sort(strsplit(temp, ":")[[1]]) # Sort to get them lexically organized
pairs[i] <- paste(temp[1], temp[2], sep=":") # Store this pair in the list
}
現在、指定した 2 つの単語が一緒に出現する回数を計算するためのカウンターを作成しようとしています。これまでのところ、私はこれを試しました
pairs2<-0
for(i in pairs){
if(i==word1:word2|i==word2:word1){
pairs2<-pairs2+1
}
しかし、私はエラーが発生しています
Error in word1:word2 : NA/NaN argument
これらの単語 1:単語 2 と単語 2:単語 1 の各ペアを 2 つの特定の単語にしたいことを R に理解させ、適切な組み合わせを見つけたらカウンターに +1 を追加するにはどうすればよいでしょうか?