2

次のように 2 つの Document Term Matrix を作成しようとしています。

title_train <- DocumentTermMatrix(title_corpus_train, control = list(dictionary = title_dict))
title_test <- DocumentTermMatrix(title_corpus_test, control = list(dictionary = title_dict))

最初の行は 75k 行で、2 番目の行は 25k 行です。これらを作成して以来、私のメモリ使用量は 7 GB でほぼ限界に達しています。

これらのマトリックスの作業をより効率的な方法でスピードアップしたいと思います...

2 つの可能性を検討しましたが、どちらも実装する方法がわかりません。

  • DocumentTermMatrix を data.table に変換します
  • ffパッケージを使用してそれらを保存しますffdf

大規模な DocumentTermMatrix での作業を高速化する方法について、誰かがガイダンスや例を提供できますか?

最終的には、300 万行以上をサポートできるようにしたいと考えています (現在、100k のサブセットのみを使用しています)。

4

0 に答える 0