BERT モデルをさらに事前トレーニングするために使用したいカスタム データがいくつかあります。これまでに次の2つのアプローチを試しました。
- 事前トレーニング済みの BERT チェックポイントから開始し、マスク言語モデリング (
MLM) + 次の文の予測 (NSP) ヘッドを使用して事前トレーニングを継続します (例: BertForPreTrainingモデルを使用) MLM目的を持つ事前トレーニング済みの BERT モデルから開始します(たとえば、事前トレーニング部分に NSP が必要ないと仮定してBertForMaskedLMモデルを使用します)。
しかし、 BertForPreTrainingまたはBertForMaskedLMのいずれかを使用して実際に BERT で継続的な事前トレーニングを行うか、またはこれらがそれぞれ BERT の微調整に MLM+NSP と MLM を使用する微調整用の 2 つのモデルにすぎないかについて、私はまだ混乱しています。MLM+NSP を使用して BERT を微調整することと、これら 2 つのヘッドを使用して BERT を継続的に事前トレーニングすることの間に違いはありますか、それともテストする必要がありますか?
このような同様の質問を確認しましたが、最初のチェックポイントからモデルを継続的に事前トレーニングすることと、同じ目的/ヘッドを使用して微調整することの間に技術的に違いがあるかどうかを確認したいと思います。