GLOVE の事前トレーニング済みベクトルを使用して、ニューラル ネットワークの埋め込みレイヤーに単語埋め込みを使用したいと考えていました。word2index 辞書を作成するときに、語彙をトレーニング セットに制限する必要がありますか? それは限定された非一般化モデルにつながるのではないでしょうか? GLOVE のすべてのボキャブラリを考慮することは推奨される方法ですか?
1 に答える
1
はい、語彙のサイズを制限することをお勧めします。事前にトレーニングされた埋め込み (GLOVE など) にはあまり役に立たない単語が多く含まれているため (Word2Vec など)、語彙のサイズが大きいほど必要な RAM が増え、その他の問題が発生します。
すべてのデータからトークンを選択します。データが十分に大きい場合、限定された一般化不可能なモデルにはなりません。データに必要な数のトークンがないと思われる場合は、次の 2 つのことを知っておく必要があります。
- データが十分ではなく、さらに収集する必要があります。
- あなたのモデルは、トレーニングで見られなかったトークンでうまく生成できません! そのため、埋め込みに未使用の単語が多くても意味がなく、それらの単語をカバーするためにより多くのデータを収集することをお勧めします。
ここで、事前トレーニング済みのモデルから単語ベクトルのマイナー セットを選択する方法を示す回答があります。
于 2019-09-04T11:25:47.420 に答える