次のように 2 つの Document Term Matrix を作成しようとしています。
title_train <- DocumentTermMatrix(title_corpus_train, control = list(dictionary = title_dict))
title_test <- DocumentTermMatrix(title_corpus_test, control = list(dictionary = title_dict))
最初の行は 75k 行で、2 番目の行は 25k 行です。これらを作成して以来、私のメモリ使用量は 7 GB でほぼ限界に達しています。
これらのマトリックスの作業をより効率的な方法でスピードアップしたいと思います...
2 つの可能性を検討しましたが、どちらも実装する方法がわかりません。
- DocumentTermMatrix を data.table に変換します
ff
パッケージを使用してそれらを保存しますffdf
大規模な DocumentTermMatrix での作業を高速化する方法について、誰かがガイダンスや例を提供できますか?
最終的には、300 万行以上をサポートできるようにしたいと考えています (現在、100k のサブセットのみを使用しています)。