0

かなり大きなデータセットである最新の wikidump (22G txt ファイル) でGlove https://github.com/stanfordnlp/GloVe/blob/master/src/glove.cをトレーニングしようとしています。私がトレーニングしている語彙の総数は 1.7 ミルです。グローブがメモリエラーなしでスムーズに実行されるまで、すべてのファイル (shuffle、cooccur、vocab_count)。(私の RAM = 64G)

ただし、グローブを実行すると、「セグメンテーション違反 (コア ダンプ)」が発生します。

aerin@capa:~/Desktop/GloVe/build$ ./glove -input-file cooccurrence.shuf.bin -vocab-file vocab.txt -save-file glove300 -t-iter 25  -gradsq-file gradsq -verbose 2 -vector-size 300 -threads 1 -alpha 0.75 -x-max 100.0 -eta 0.05 -binary 2 -model 2
TRAINING MODEL
Read 1939406304 lines.
Initializing parameters...done.
vector size: 300
vocab size: 1737888
x_max: 100.000000
alpha: 0.750000
Segmentation fault (core dumped)

1、2、4、8、16、32など、さまざまなスレッド数でも試しましたが、何も実行されません。誰かが私にどこを見るべきか教えてもらえますか?

アップデート

ボキャブラリの数を 170 万から 100 万に削減し、glove.c は「セグメンテーション違反」エラーなしで実行されます。なので記憶違いです。しかし、このエラーを解決する方法を学び、より大きなデータセットでモデルをトレーニングできるようになりたいです! どんなコメントも高く評価されます。ありがとう。

4

0 に答える 0