BPE トークナイザーに新しい単語を追加したいと考えています。記号 Ġ は新しいトークンの終わりを意味し、事前トレーニング済みのトークナイザーの語彙のトークンの大部分は Ġ で始まることを知っています。Salahという単語をトークナイザーに追加したいとします。SalahトークンとĠSalahの両方を追加しようとしました: tokenizer.add_tokens(['Salah', 'ĠSalah']) # それぞれ 50265 と 50266 の値を取得します。ただし、 Salahが表示される文をトークン化すると、トークナイザーは 2 番目の数字を返しません ( .tokenize
norを使用した.encode
場合)。たとえば、
return . 問題は、記号を使用する必要があるかどうかです。tokenizer.tokenize('I love Salah and salad')
['I', 'Ġlove', 'Salah', 'Ġand', 'Ġsalad']
Ġ
新しいトークンを追加するとき、またはトークナイザーはそれ自体を行いますか? それとも、おそらく、手動で指定する必要がありますか? 前もって感謝します!