1

CSV には、顧客が受け取ったサービスを推奨したかどうか (1 または 0)、「rec」、および関連するコメント「comment」を示す顧客フィードバック データのペアがあります。サービスを推奨した人とそうでない人の顧客のフィードバックを比較しようとしています.

私は tm パッケージを使用して、CSV 内のすべての行をコメントのみで単純に読み取り、すべてのコメントに対して後続のテキスト マイニングを実行しました。

>file_loc <- "C:/Users/..(etc)...file.csv"    
x <- read.csv(file_loc, header = TRUE)   
require(tm)   
fdbk <- Corpus(DataframeSource(x))

現在、「rec」列を含めて、推奨する顧客と推奨しない顧客のコメントを比較しようとしていますが、単一の列 CSV からコーパスを作成できませんでした。次のことを試しました。

>file_loc <- "C:/Users/..(etc)...file.csv"    
x <- read.csv(file_loc, header = TRUE)   
require(tm)   
fdbk <- Corpus(DataframeSource(x$comment))

しかし、私はエラーが発生します

"Error in if (vectorized && (length <= 0))
stop("vectorized sources must have positive length") : 
missing value where TRUE/FALSE needed"

トピック モデルを作成した後、「rec」コードをコメントにバインドしようとしましたが、特定のコメントが「topic」関数によってフィルター処理されてしまうため、結果のトピック モデルのドキュメント数よりも「rec」列が長くなります。

これが tm パッケージで簡単にできることでしょうか? 私は qdap パッケージをまったく使用していませんが、ここでより適切なものはありますか?

4

1 に答える 1