-5

30k レコード (会社名およびその他の属性) の data.frame があります。dba_nm最長要素が 60 文字未満の会社名フィールドです。

R セッションのメモリ使用量が 100MB から 3GB に増加し、次のコードを試すとハングします?tm::VectorSource

ds <- VectorSource(dat$dba_nm)
inspect(Corpus(ds))
4

1 に答える 1

0

さて、私はデータベースからデータフレーム (dat) を取得し、列の 1 つ (dba_nm) を vectorsource に読み取ろうとしていました。それを文字ベクトルに変換する必要があることがわかりました。次のコードが機能します。

> cs <- as.character(dat$dba_nm)
> ds <- VectorSource(cs)
> Corpus(ds)
A corpus with 30453 text documents
于 2012-08-30T13:32:54.283 に答える