keras - GLOVE のような事前トレーニング済みの word2vec を使用して NN モデルをトレーニングする場合、ボキャブラリはトレーニングセットのボキャブラリに制限する必要がありますか?

Question

GLOVE の事前トレーニング済みベクトルを使用して、ニューラルネットワークの埋め込みレイヤーに単語埋め込みを使用したいと考えていました。word2index 辞書を作成するときに、語彙をトレーニングセットに制限する必要がありますか? それは限定された非一般化モデルにつながるのではないでしょうか? GLOVE のすべてのボキャブラリを考慮することは推奨される方法ですか?

score 1 · Accepted Answer

はい、語彙のサイズを制限することをお勧めします。事前にトレーニングされた埋め込み (GLOVE など) にはあまり役に立たない単語が多く含まれているため (Word2Vec など)、語彙のサイズが大きいほど必要な RAM が増え、その他の問題が発生します。

すべてのデータからトークンを選択します。データが十分に大きい場合、限定された一般化不可能なモデルにはなりません。データに必要な数のトークンがないと思われる場合は、次の 2 つのことを知っておく必要があります。

データが十分ではなく、さらに収集する必要があります。
あなたのモデルは、トレーニングで見られなかったトークンでうまく生成できません! そのため、埋め込みに未使用の単語が多くても意味がなく、それらの単語をカバーするためにより多くのデータを収集することをお勧めします。

ここで、事前トレーニング済みのモデルから単語ベクトルのマイナーセットを選択する方法を示す回答があります。

keras - GLOVE のような事前トレーニング済みの word2vec を使用して NN モデルをトレーニングする場合、ボキャブラリはトレーニング セットのボキャブラリに制限する必要がありますか?

1 に答える 1

Related

Reference

keras - GLOVE のような事前トレーニング済みの word2vec を使用して NN モデルをトレーニングする場合、ボキャブラリはトレーニングセットのボキャブラリに制限する必要がありますか?