GPT の注意が Masked Multihead Attention であることはわかっています。事前トレーニング済みの GPT モデルがあり、その重みを EncoderDecoderModel のエンコーダーに割り当てたいと考えています。お気に入り:
model = EncoderDecoderModel.from_encoder_decoder_pretrained("pretrained_gpt_name","pretrained_for_decoder" , tie_encoder_decoder=True)
# Change masked attention to self attention here to make encoder bidirectional and copy weights.
私はトランスフォーマーと pytorch の初心者です。