2

オプションを使用して、never_splitいくつかのトークンを保持しようとしました。しかし、トークナイザーはそれらをワードピースに分割します。

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased', never_split=['lol'])
tokenizer.tokenize("lol That's funny")
['lo', '##l', 'that', "'", 's', 'funny']

ここで何かが恋しいですか?

4

1 に答える 1