https://github.com/botxo/nordic_bertからノルウェーのBERTモデルをダウンロードし、次を使用してロードしました:
import transformers as t
model_class = t.BertModel
tokenizer_class = t.BertTokenizer
tokenizer = tokenizer_class.from_pretrained(/PATH/TO/MODEL/FOLDER)
model = model_class.from_pretrained(/PATH/TO/MODEL)
model.eval()
これは非常にうまく機能しますが、特定の文をトークン化しようとすると、「ø」や「æ」などの一部の北欧文字は同じままですが、文字「å」を持つすべての単語は「a」に置き換えられます。例えば:
s = "æ ø å løpe få ærfugl"
print(tokenizer.tokenize(s))
収量:
['æ', 'ø', 'a', 'løp', '##e', 'fa', 'ær', '##fugl']
ありがとう