0

私は NLP の初心者で、テキスト分類の仕事をしようとしています。仕事をする前に、単語の埋め込みを行う必要があることを知っています。私の質問は、トレーニング データでのみ単語埋め込みジョブを実行する必要があるか(テスト データがトレーニング データの事前トレーニング済みの vec-model からベクトルを取得するようにするため)、またはトレーニング データとテスト データの両方で実行する必要がありますか?

4

1 に答える 1

-1

これは非常に重要な質問です。NN コミュニティでは、通常、トレーニング セットでしきい値 (つまり、頻度 < = 2) を使用し、そのしきい値未満で出現するすべての単語を UNK トークンで置き換えます。その後、テスト時に、実際のトレーニング セットの単語と一致しない単語があれば、UNK の表現がそれを置き換えます。

于 2016-05-23T03:21:41.487 に答える