問題タブ [roberta-language-model]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
27 参照

pytorch - 微調整タスクの再ランキングに XLM-Roberta モデルを使用する方法は?

再ランキング タスクに XLM-Roberta モデルを使用しようとしています。ただし、英語の単一言語タスクの場合、BERT は評価中に収束し、最高のスコアを返しました。しかし、それを XLM-Roberta モデルに置き換えても収束しませんでした。また、bert tokenizer が 3 つのキー (input_ids、token_type_ids、attention_masks) を持つ dict を返すこともわかりました。ただし、XLM-Roberta は 2 つのキー (input_ids と Attention_masks) を持つ dict のみを返します。入力テキストのペアを XLM-Roberta モデルに分離する方法はありますか? そして、それがモデルが収束しない理由になるのでしょうか?

0 投票する
0 に答える
14 参照

twitter - 入力が比較的長い場合、BERTweet はエラーをスローします。

ハグ顔の BERTweet 実装 ( https://huggingface.co/docs/transformers/model_doc/bertweet ) を使用しています。いくつかのツイートをエンコードして、さらに処理 (予測) するために転送したいと考えています。問題は、比較的長い文をエンコードしようとすると、モデルでエラーが発生することです。

例:

コンソール出力:

ただし、次のように変更するlineと:

の場合、モデルは文を正常にエンコードします。それは予想される動作ですか?BERT は 1 文に最大 512 語までということを私は知っています。BERTweet は基本的に微調整された BERT です。長い文を削除するのは良い考えですか?それは私の問題に対する許容できる解決策でしょうか? 前もって感謝します。