I am using Word2Vec with a dataset of roughly 11,000,000 tokens looking to do both word similarity (as part of synonym extraction for a downstream task) but I don't have a good sense of how many dimensions I should use with Word2Vec. Does anyone have a good heuristic for the range of dimensions to consider based on the number of tokens/sentences?
16043 次
3 に答える
21
通常の間隔は 100 ~ 300 です。最低の精度を達成するには、少なくとも 50D が必要だと思います。次元数を少なくすると、高次元空間の特性が失われ始めます。アプリケーションにとってトレーニング時間が大したことではない場合、優れた機能を提供する 200D ディメンションを使用します。300Dで極限の精度が得られます。300D ワード以降の機能は劇的に改善されず、トレーニングは非常に遅くなります。
高次元空間での次元選択の理論的説明と厳密な境界はわかりませんが (アプリケーションに依存しない説明はないかもしれません)、Pennington et. al、図 2a で、x 軸はベクトル次元を示し、y 軸は得られた精度を示します。それは、上記の議論に経験的な正当化を提供するはずです。
于 2014-10-28T16:07:47.097 に答える