python - 引数「never_split」がbertトークナイザーで機能しない

翻译自：https://stackoverflow.com/questions/60914793 2020-03-29T13:08:48.370

731 次

オプションを使用して、never_splitいくつかのトークンを保持しようとしました。しかし、トークナイザーはそれらをワードピースに分割します。

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased', never_split=['lol'])
tokenizer.tokenize("lol That's funny")
['lo', '##l', 'that', "'", 's', 'funny']

ここで何かが恋しいですか？

python - 引数「never_split」がbertトークナイザーで機能しない

1 に答える 1

Related

Reference