r - DocumentTermMatrix のパフォーマンスの問題

翻译自：https://stackoverflow.com/questions/24682230 2014-07-10T16:54:28.877

203 次

次のように 2 つの Document Term Matrix を作成しようとしています。

title_train <- DocumentTermMatrix(title_corpus_train, control = list(dictionary = title_dict))
title_test <- DocumentTermMatrix(title_corpus_test, control = list(dictionary = title_dict))

最初の行は 75k 行で、2 番目の行は 25k 行です。これらを作成して以来、私のメモリ使用量は 7 GB でほぼ限界に達しています。

これらのマトリックスの作業をより効率的な方法でスピードアップしたいと思います...

2 つの可能性を検討しましたが、どちらも実装する方法がわかりません。

DocumentTermMatrix を data.table に変換します
ffパッケージを使用してそれらを保存しますffdf

大規模な DocumentTermMatrix での作業を高速化する方法について、誰かがガイダンスや例を提供できますか?

最終的には、300 万行以上をサポートできるようにしたいと考えています (現在、100k のサブセットのみを使用しています)。

r - DocumentTermMatrix のパフォーマンスの問題

0 に答える 0

Related

Reference