r - 小さなデータセットで R の tm パッケージがハングする

Question

30k レコード (会社名およびその他の属性) の data.frame があります。dba_nm最長要素が 60 文字未満の会社名フィールドです。

R セッションのメモリ使用量が 100MB から 3GB に増加し、次のコードを試すとハングします?tm::VectorSource。

ds <- VectorSource(dat$dba_nm)
inspect(Corpus(ds))

score 0 · Accepted Answer

さて、私はデータベースからデータフレーム (dat) を取得し、列の 1 つ (dba_nm) を vectorsource に読み取ろうとしていました。それを文字ベクトルに変換する必要があることがわかりました。次のコードが機能します。

> cs <- as.character(dat$dba_nm)
> ds <- VectorSource(cs)
> Corpus(ds)
A corpus with 30453 text documents

1 に答える 1