2

XLNET 言語モデルをゼロからトレーニングしたいと考えています。まず、トークナイザーを次のようにトレーニングしました。

from tokenizers import ByteLevelBPETokenizer

# Initialize a tokenizer
tokenizer = ByteLevelBPETokenizer()
# Customize training
tokenizer.train(files='data.txt', min_frequency=2, special_tokens=[ #defualt vocab size
    "<s>",
    "<pad>",
    "</s>",
    "<unk>",
    "<mask>",
])
tokenizer.save_model("tokenizer model")

最後に、指定されたディレクトリに 2 つのファイルを作成します。

merges.txt
vocab.json

モデルに次の構成を定義しました。

from transformers import XLNetConfig, XLNetModel
config = XLNetConfig()

ここで、トランスフォーマーでトークナイザーを再作成したいと思います。

from transformers import XLNetTokenizerFast

tokenizer = XLNetTokenizerFast.from_pretrained("tokenizer model")

ただし、次のエラーが表示されます。

File "dfgd.py", line 8, in <module>
    tokenizer = XLNetTokenizerFast.from_pretrained("tokenizer model")
  File "C:\Users\DSP\AppData\Roaming\Python\Python37\site-packages\transformers\tokenization_utils_base.py", line 1777, in from_pretrained
    raise EnvironmentError(msg)
OSError: Can't load tokenizer for 'tokenizer model'. Make sure that:

- 'tokenizer model' is a correct model identifier listed on 'https://huggingface.co/models'

- or 'tokenizer model' is the correct path to a directory containing relevant tokenizer files

私は何をすべきか?

4

1 に答える 1