word2vec を使用して、現在のバージョンの英語のウィキペディアで独自の単語ベクトル コーパスを作成したいのですが、そのプログラムを使用するためのコマンド ライン パラメーターの説明が見つかりません。demp-script には次のものがあります:
(text8 は 2006 年の古いウィキペディアのコーパスです)
make
if [ ! -e text8 ]; then
wget http://mattmahoney.net/dc/text8.zip -O text8.gz
gzip -d text8.gz -f
fi
time ./word2vec -train text8 -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15
./distance vectors.bin
コマンド ライン パラメータの意味は次のとおりです。
vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15
また、約 20GB のウィキペディア テキスト コーパス (.txt ファイル) がある場合、最適な値はどれですか? より大きなコーパスの場合、ベクトルサイズは 300 または 500 の方がよいと読みました。