Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
30k レコード (会社名およびその他の属性) の data.frame があります。dba_nm最長要素が 60 文字未満の会社名フィールドです。
dba_nm
R セッションのメモリ使用量が 100MB から 3GB に増加し、次のコードを試すとハングします?tm::VectorSource。
?tm::VectorSource
ds <- VectorSource(dat$dba_nm) inspect(Corpus(ds))
さて、私はデータベースからデータフレーム (dat) を取得し、列の 1 つ (dba_nm) を vectorsource に読み取ろうとしていました。それを文字ベクトルに変換する必要があることがわかりました。次のコードが機能します。
> cs <- as.character(dat$dba_nm) > ds <- VectorSource(cs) > Corpus(ds) A corpus with 30453 text documents