nlp - HuggingFace Transformers: BertTokenizer によるキャラクターの変更

翻译自：https://stackoverflow.com/questions/63152188 2020-07-29T11:05:06.253

1710 次

https://github.com/botxo/nordic_bertからノルウェーのBERTモデルをダウンロードし、次を使用してロードしました:

import transformers as t

model_class = t.BertModel
tokenizer_class = t.BertTokenizer

tokenizer = tokenizer_class.from_pretrained(/PATH/TO/MODEL/FOLDER)
model = model_class.from_pretrained(/PATH/TO/MODEL)
model.eval()

これは非常にうまく機能しますが、特定の文をトークン化しようとすると、「ø」や「æ」などの一部の北欧文字は同じままですが、文字「å」を持つすべての単語は「a」に置き換えられます。例えば：

s = "æ ø å løpe få ærfugl"
print(tokenizer.tokenize(s))

収量:

['æ', 'ø', 'a', 'løp', '##e', 'fa', 'ær', '##fugl']

ありがとう

nlp - HuggingFace Transformers: BertTokenizer によるキャラクターの変更

1 に答える 1

Related

Reference