私は最近、単一の CSV ファイルを選択し、R のテキスト マイニングを使用して、ファイル内で最も一般的に使用されている単語を見つける方法を学びました。今やりたいことは、R に複数の CSV ファイルを検索させることです (私の例では、5 つのファイルがあります)。 ) を選択し、各 CSV ファイルに含まれる類似の単語を選び出します。参考までに - 私の 5 つのファイルでは、「hieroglyphics」という単語を人為的に挿入しました。これを 5 つのファイルすべてで一致する単語としてコードで抽出できるようにしたいと考えています。ドキュメント。
以下のようにコードを設定しましたが、どうやって進めるか本当に苦労しています。誰でも助けることができますか?
よろしくお願いします。
ポール
PS拡張機能として(上記が一部の人にとって簡単すぎる場合!)-単語を含む5つのCSVファイルの数を引き出す方法はありますか?上記の例を続けると、「Egypt」という単語が 5 つの CSV ファイルのうち 4 つにしか含まれていない場合、R プログラムですべての単語を取り出して、「hieroglypics - 5」、「Egypt - 4」などと言うことができます。 5つのドキュメントすべて?
install.packages('tm')
library(tm)
setwd('C:\\Users\\900369\\Documents\\R\\Text Mining\\')
reviews1 <- read.csv("Evo-USA-Oct-Nov-141-160.csv",stringsAsFactors=FALSE)
reviews2 <- read.csv("Evo-USA-Oct-Nov-141-160 - Copy (2).csv",stringsAsFactors=FALSE)
reviews3 <- read.csv("Evo-USA-Oct-Nov-141-160 - Copy (3).csv",stringsAsFactors=FALSE)
reviews4 <- read.csv("Evo-USA-Oct-Nov-141-160 - Copy (4).csv",stringsAsFactors=FALSE)
reviews5 <- read.csv("Evo-USA-Oct-Nov-141-160 - Copy (5).csv",stringsAsFactors=FALSE)
filenames <- list.files('C:\\Users\\900369\\Documents\\R\\Text Mining\\',"*csv",FALSE,FALSE,FALSE,FALSE,FALSE)