10

R で tm パッケージを使用しようとしていますが、顧客からのフィードバックの CSV ファイルがあり、各行がフィードバックの異なるインスタンスになっています。このフィードバックのすべてのコンテンツをコーパスにインポートしたいのですが、DocTerms マトリックスでフィードバックを比較できるように、各行をコーパス内の異なるドキュメントにしたいと考えています。私のデータセットには 10,000 行以上あります。

もともと私は次のことをしました:

fdbk_corpus <-Corpus(VectorSource(fdbk), readerControl = list(language="eng"), sep="\t")

これにより、1 つのドキュメントと 10,000 行を超えるコーパスが作成されます。各行が 10,000 を超えるドキュメントが必要です。

フォルダ内に10,000以上の個別のCSVまたはTXTドキュメントを作成し、そこからコーパスを作成できると思いますが、それよりもはるかに簡単な答えがあり、各行を個別のドキュメントとして読むことができると思います.

4

2 に答える 2

18

必要なものを取得するための完全なワークフローは次のとおりです。

# change this file location to suit your machine
file_loc <- "C:\\Documents and Settings\\Administrator\\Desktop\\Book1.csv"
# change TRUE to FALSE if you have no column headings in the CSV
x <- read.csv(file_loc, header = TRUE)
require(tm)
corp <- Corpus(DataframeSource(x))
dtm <- DocumentTermMatrix(corp)

オブジェクトのdtm各行はドキュメント、または元の CSV ファイルの行になります。各列は単語になります。

于 2013-08-01T16:06:19.653 に答える