オプションを使用して、never_split
いくつかのトークンを保持しようとしました。しかし、トークナイザーはそれらをワードピースに分割します。
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased', never_split=['lol'])
tokenizer.tokenize("lol That's funny")
['lo', '##l', 'that', "'", 's', 'funny']
ここで何かが恋しいですか?