machine-learning - Word2Vec で事前トレーニング済みのモデルをマージしますか?

Question

1,000 億語の Google ニュースの事前学習済みベクターファイルをダウンロードしました。それに加えて、私は自分の 3GB データをトレーニングして、別のトレーニング済みベクターファイルを生成しています。両方とも 300 の機能ディメンションと 1 GB を超えるサイズがあります。

これらの 2 つの巨大な事前トレーニング済みベクトルをマージするにはどうすればよいですか? または、新しいモデルをトレーニングし、別のモデルの上でベクトルを更新するにはどうすればよいですか? C ベースの word2vec はバッチトレーニングをサポートしていないようです。

これら2つのモデルから単語の類推を計算しようとしています。これら 2 つの情報源から学習したベクトルは、かなり良い結果をもたらすと信じています。

score 13 · Accepted Answer

個別のトレーニングセッションの最終結果を統合する簡単な方法はありません。

まったく同じデータであっても、最初のシードまたはスレッドスケジューリングジッタからのわずかなランダム化により、さまざまな終了状態が発生し、ベクトルは同じセッション内でのみ完全に比較可能になります。

これは、すべてのセッションがベクトルの有用な構成を見つけるためです...しかし、単一のベストではなく、同等に有用な構成が多数あります。

たとえば、どのような最終状態に到達しても、多くの回転/反射があり、トレーニング予測タスクでまったく同じように機能したり、他のタスク (類推の解決など) でまったく同じように機能したりできます。しかし、これらの可能な選択肢のほとんどは、相互に有用な比較のために混合して一致させることができる座標を持っていません.

以前のトレーニング実行からのデータをモデルにプリロードすると、新しいデータでさらにトレーニングした後に結果が改善される可能性がありますが、この可能性に関する厳密なテストは行っていません。効果は、特定の目標、パラメーターの選択、および新しいデータと古いデータがどの程度類似しているか、またはベクトルが使用される最終的なデータの代表に依存する可能性があります。

たとえば、Google ニュースのコーパスが、独自のトレーニングデータや、単語ベクトルを使用して理解するテキストと異なる場合、それを出発点として使用すると、トレーニングが遅くなったり偏ったりする可能性があります。一方、新しいデータを十分に長くトレーニングすると、最終的には、プリロードされた値の影響が薄れてまったくなくなる可能性があります。(「ブレンドされた」結果が本当に必要な場合は、ベクトルを前のデータセット値に戻すためのインターリーブされた目標を使用して、新しいデータで同時にトレーニングする必要がある場合があります。)

独立したセッションの結果を組み合わせる方法は、優れた研究プロジェクトになる可能性があります。おそらく、word2vec 言語翻訳プロジェクトで使用されている方法 (語彙空間間の射影を学習する) は、異なる実行の異なる座標間で「翻訳」することもできます。おそらく、いくつかのベクトルを所定の位置に固定するか、「新しいテキストを予測する」と「古いベクトルに近づける」という2つの目標をトレーニングすることで、有意に改善された組み合わせ結果が得られるでしょう.

machine-learning - Word2Vec で事前トレーニング済みのモデルをマージしますか?

2 に答える 2

Related

Reference