問題タブ [roberta-language-model]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pytorch - 微調整タスクの再ランキングに XLM-Roberta モデルを使用する方法は?
再ランキング タスクに XLM-Roberta モデルを使用しようとしています。ただし、英語の単一言語タスクの場合、BERT は評価中に収束し、最高のスコアを返しました。しかし、それを XLM-Roberta モデルに置き換えても収束しませんでした。また、bert tokenizer が 3 つのキー (input_ids、token_type_ids、attention_masks) を持つ dict を返すこともわかりました。ただし、XLM-Roberta は 2 つのキー (input_ids と Attention_masks) を持つ dict のみを返します。入力テキストのペアを XLM-Roberta モデルに分離する方法はありますか? そして、それがモデルが収束しない理由になるのでしょうか?
twitter - 入力が比較的長い場合、BERTweet はエラーをスローします。
ハグ顔の BERTweet 実装 ( https://huggingface.co/docs/transformers/model_doc/bertweet ) を使用しています。いくつかのツイートをエンコードして、さらに処理 (予測) するために転送したいと考えています。問題は、比較的長い文をエンコードしようとすると、モデルでエラーが発生することです。
例:
コンソール出力:
ただし、次のように変更するlineと:
の場合、モデルは文を正常にエンコードします。それは予想される動作ですか?BERT は 1 文に最大 512 語までということを私は知っています。BERTweet は基本的に微調整された BERT です。長い文を削除するのは良い考えですか?それは私の問題に対する許容できる解決策でしょうか? 前もって感謝します。