2

BPE トークナイザーに新しい単語を追加したいと考えています。記号 Ġ は新しいトークンの終わりを意味し、事前トレーニング済みのトークナイザーの語彙のトークンの大部分は Ġ で始まることを知っています。Salahという単語をトークナイザーに追加したいとします。SalahトークンとĠSalahの両方を追加しようとしました: tokenizer.add_tokens(['Salah', 'ĠSalah']) # それぞれ 50265 と 50266 の値を取得します。ただし、 Salahが表示される文をトークン化すると、トークナイザーは 2 番目の数字を返しません ( .tokenizenorを使用した.encode場合)。たとえば、 return . 問題は、記号を使用する必要があるかどうかです。tokenizer.tokenize('I love Salah and salad')['I', 'Ġlove', 'Salah', 'Ġand', 'Ġsalad']Ġ新しいトークンを追加するとき、またはトークナイザーはそれ自体を行いますか? それとも、おそらく、手動で指定する必要がありますか? 前もって感謝します!

4

0 に答える 0