私は、100,000行(マレット形式で約34 MB)を含むテキストファイルのトピックを推測するためにマレットを使用しています。しかし今、私はそれを百万行(約180MB)を含むファイルで実行する必要があり、java.lang.outofmemory例外が発生しています。ファイルを小さなファイルに分割し、結合されたすべてのファイルに存在するデータのモデルを構築する方法はありますか?前もって感謝します
質問する
2375 次
5 に答える
6
bin/mallet.batで、この行の値を増やします。
set MALLET_MEMORY=1G
于 2012-11-04T21:36:38.170 に答える
1
マレットのビッグデータへのスケーラビリティについてはよくわかりませんが、プロジェクトhttp://dragon.ischool.drexel.edu/は、データをディスクでバックアップされた永続性に保存できるため、無制限のコーパスサイズに拡張できます(もちろんパフォーマンスは低くなります)
于 2011-03-02T19:48:16.273 に答える
1
java.lang.outofmemory 例外は、主にヒープ領域が不足しているために発生します。-Xms と -Xmx を使用してヒープ領域を設定し、再来しないようにすることができます。
于 2012-01-09T12:07:10.523 に答える
1
複数のファイルから読み取ったとしても、モデルはかなり巨大になります。Java VM のヒープ サイズを増やしてみましたか?
于 2011-03-02T20:17:47.870 に答える
0
現在の PC のメモリ サイズを考えると、2GB 程度のヒープを使用するのは簡単なはずです。クラスターの使用を検討する前に、単一マシン ソリューションを試す必要があります。
于 2011-03-06T14:48:00.910 に答える