java - マレットトピックモデリング

Question

私は、100,000行（マレット形式で約34 MB）を含むテキストファイルのトピックを推測するためにマレットを使用しています。しかし今、私はそれを百万行（約180MB）を含むファイルで実行する必要があり、java.lang.outofmemory例外が発生しています。ファイルを小さなファイルに分割し、結合されたすべてのファイルに存在するデータのモデルを構築する方法はありますか？前もって感謝します

score 6 · Accepted Answer

6

bin/mallet.batで、この行の値を増やします。

set MALLET_MEMORY=1G

于 2012-11-04T21:36:38.170 に答える

score 1 · Accepted Answer

マレットのビッグデータへのスケーラビリティについてはよくわかりませんが、プロジェクトhttp://dragon.ischool.drexel.edu/は、データをディスクでバックアップされた永続性に保存できるため、無制限のコーパスサイズに拡張できます（もちろんパフォーマンスは低くなります）

score 1 · Accepted Answer

java.lang.outofmemory 例外は、主にヒープ領域が不足しているために発生します。-Xms と -Xmx を使用してヒープ領域を設定し、再来しないようにすることができます。

score 1 · Accepted Answer

複数のファイルから読み取ったとしても、モデルはかなり巨大になります。Java VM のヒープサイズを増やしてみましたか?

score 0 · Accepted Answer

現在の PC のメモリサイズを考えると、2GB 程度のヒープを使用するのは簡単なはずです。クラスターの使用を検討する前に、単一マシンソリューションを試す必要があります。

java - マレットトピックモデリング

5 に答える 5

Related

Reference