r - データが多すぎるテキストマイニング

Question

R 言語が提供するテキストマイニングツールを使用しようとしていますが、古いマシンで実行しているため、次の問題に直面しています。

tm パッケージと Corpus 関数を使用して Document Term Matrix を作成したいと考えています。DTM を作成すると、4 GB のメモリを割り当てることができるというエラーが表示されます (私のマシンには 2 GB のメモリがあります)。一般的に、このような問題にどのように直面しますか? たとえば、一般的なアプリケーションでは、DTM はマトリックスよりもはるかに大きくする必要があります。メモリを使用する代わりに SQL データベースを使用する方法はありますか?

//一時的な sqlite データベースを作成するために sqldf ライブラリを使用する方法に関する関連記事を調べました。しかし、この場合、マトリックスを作成することさえできません。

score 4 · Accepted Answer

一般的に、このような問題にどのように直面しますか?

疎行列データ構造を使用します。それがなければ、テキストマイニングはほぼ不可能です。1 つあれば、数百 MB で数百から数千のドキュメントを処理できます。

私自身は R で作業していませんが、どこかに疎行列パッケージが含まれているはずです。

r - データが多すぎるテキストマイニング

1 に答える 1

Related

Reference