R で tm パッケージを使用しようとしていますが、顧客からのフィードバックの CSV ファイルがあり、各行がフィードバックの異なるインスタンスになっています。このフィードバックのすべてのコンテンツをコーパスにインポートしたいのですが、DocTerms マトリックスでフィードバックを比較できるように、各行をコーパス内の異なるドキュメントにしたいと考えています。私のデータセットには 10,000 行以上あります。
もともと私は次のことをしました:
fdbk_corpus <-Corpus(VectorSource(fdbk), readerControl = list(language="eng"), sep="\t")
これにより、1 つのドキュメントと 10,000 行を超えるコーパスが作成されます。各行が 10,000 を超えるドキュメントが必要です。
フォルダ内に10,000以上の個別のCSVまたはTXTドキュメントを作成し、そこからコーパスを作成できると思いますが、それよりもはるかに簡単な答えがあり、各行を個別のドキュメントとして読むことができると思います.