問題タブ [gpt-2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
250 参照

nlp - HuggingFace GPT2DoubleHeadsModel は、多肢選択式ではない次のトークン予測に使用できますか?

HuggingFace Transformer の Web サイト ( https://huggingface.co/transformers/model_doc/gpt2.html#gpt2doubleheadsmodel ) によると、GPT2DoubleHeadsModel ( GPT2LMHeadModel ではなくGPT2DoubleHeadsModel ) は、言語モデリングと多肢選択式分類を備えた GPT-2 変圧器モデルです。たとえば、RocStories/SWAG タスクの場合。

これは、 GPT2DoubleHeadsModelを使用して、多肢選択式ではない言語モデリング タスク (つまり、次の単語の予測) と多肢選択式の質問の両方を、ヘッドを調整することなく処理できるということですか? または、 GPT2DoubleHeadsModelは複数選択タイプの質問にのみ回答するためのものであるため、非複数選択ベースの次の単語予測を実行する場合、 GPT2DoubleHeadsModelのヘッドを調整する必要がありますか?

あなたの GPT-2 論文を読んで得た印象は、GPT-2 は言語モデリング プロセスを使用してあらゆる種類の言語タスクを処理するというものだったので、これには少し混乱しています (したがって、GPT-2 には通常の言語モデリング ヘッドしかありません)。上)、しかし、「GPT2DoubleHeadsModel」という名前は、この GPT-2 のヘッドをさまざまな種類の言語タスクに合わせて調整する必要があることを示唆しているようです。

ありがとうございました、