問題タブ [huggingface-tokenizers]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
440 参照

python - TFGPT2LMHeadModel 不明な場所

私は tensorflow (CPU) といくつかの言語モデリングをいじっています - そしてそれはこれまでのところ爆発的でした - すべてがうまく機能しています.
しかし、古い CPU がすべてのモデル トレーニングからゆっくりと死んでいくのを見た後、ついに RTX 2080 を活用する時が来たと判断しました。ワシントン大学のガイドに従っています:. すぐに tensorflow-gpu を実行し、軽度の予測などで実行しました。

しかし、GPT2 言語モデルを実行するようになったとき、いくつかの小さな問題に遭遇しました。データをトークン化することから始めます。

上記のコードは完全に機能し、テンソルフロー (CPU) と同様にデータをトークン化します。データをトークン化した後、モデルのトレーニングを開始しますが、開始する前に、次の ImportError が発生します。

Transformers パッケージは site-packages lib に正しくインストールされているようで、他のトランスフォーマーを使用できるようです - しかし TFGPT2LMHeadModel は使用できません。googleとhugging.co ですべてを読みました- 異なるバージョンの tensorflow-gpu、トランスフォーマーを試しました。トークナイザーと他の多くのパッケージ - - 残念ながら何も役に立ちません。

パッケージ:

  • パイソン、3.7.1
  • テンソルフロー 2.1.0
  • Tensorflow GPU 2.1.0
  • Tensorflow ベース 2.1.0
  • Tensorflow-estimator 2.1.0
  • トランスフォーマー 4.2.2
  • トークナイザー 0.9.4
  • cudnn 7.6.5
  • cudatoolkit 10.1.243
0 投票する
1 に答える
827 参照

pytorch - HuggingFace - config.json での GPT2 Tokenizer 構成

GPT2 微調整モデルは、推論用のhuggingface-modelsにアップロードされます

推論中に以下のエラーが観察され、

from_pretrained を使用してトークナイザーを読み込めません。その構成を更新してください: 'bala1802/model_1_test' のトークナイザーを読み込めません。- 「bala1802/model_1_test」は「https://huggingface.co/models」にリストされている正しいモデル識別子です - または「bala1802/model_1_test」は、関連するトークナイザー ファイルを含むディレクトリへの正しいパスです

以下は構成です - Finetuned huggingface モデルの config.json ファイル、

"model_type": "gpt2"config.json ファイルのように GPT2 Tokenizer を構成する必要がありますか?

0 投票する
1 に答える
1929 参照

python - OSError: トークナイザーを読み込めません

XLNET 言語モデルをゼロからトレーニングしたいと考えています。まず、トークナイザーを次のようにトレーニングしました。

最後に、指定されたディレクトリに 2 つのファイルを作成します。

モデルに次の構成を定義しました。

ここで、トランスフォーマーでトークナイザーを再作成したいと思います。

ただし、次のエラーが表示されます。

私は何をすべきか?