13

インターネットへのアクセスを必要としないコンテナーから後でロードできるように、トークナイザーを huggingface に保存しようとしています。

BASE_MODEL = "distilbert-base-multilingual-cased"
tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
tokenizer.save_vocabulary("./models/tokenizer/")
tokenizer2 = AutoTokenizer.from_pretrained("./models/tokenizer/")

ただし、最後の行でエラーが発生しています。

OSError: Can't load config for './models/tokenizer3/'. Make sure that:

- './models/tokenizer3/' is a correct model identifier listed on 'https://huggingface.co/models'

- or './models/tokenizer3/' is the correct path to a directory containing a config.json file

トランスフォーマーのバージョン: 3.1.0

残念ながら、Pytorch で事前トレーニングされたモデルから保存されたトークナイザーをロードする方法は役に立ちませんでした。

編集 1

以下の@ashwinの回答のおかげsave_pretrainedで、代わりに試してみましたが、次のエラーが発生しました。

OSError: Can't load config for './models/tokenizer/'. Make sure that:

- './models/tokenizer/' is a correct model identifier listed on 'https://huggingface.co/models'

- or './models/tokenizer/' is the correct path to a directory containing a config.json file

トークナイザー フォルダーの内容は次のとおりです。 ここに画像の説明を入力

に名前を変更しようとtokenizer_config.jsonconfig.jsonましたが、エラーが発生しました:

ValueError: Unrecognized model in ./models/tokenizer/. Should have a `model_type` key in its config.json, or contain one of the following strings in its name: retribert, t5, mobilebert, distilbert, albert, camembert, xlm-roberta, pegasus, marian, mbart, bart, reformer, longformer, roberta, flaubert, bert, openai-gpt, gpt2, transfo-xl, xlnet, xlm, ctrl, electra, encoder-decoder
4

3 に答える 3

2

「tokenizer_config.json」ファイル(save_pretrained()関数によって作成されたファイル)の名前を「config.json」に変更すると、私の環境で同じ問題が解決しました。

于 2021-04-07T00:18:40.273 に答える