問題タブ [fine-tune]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

35 問題

0 投票する

1 に答える

120 参照

python - Pythonで.mdlファイルをロードするには?

チャットボット用に、カスタムデータセット、特にEmpatheticDialoguesデータセットを使用して GPT トランスフォーマーモデルを微調整する予定です。リポジトリは、プロジェクトに .mdl ファイルを提供します。これらの .mdl ファイルを ipynb ファイルにロードするにはどうすればよいですか? DialoGPT と呼ばれる GPT トランスフォーマーモデルを微調整するために、.mdl ファイルをロードする必要があるのは正しいですか?

このGoogle Colab Notebookのガイダンスに従って、前述のリポジトリの .csv データセットだけを読み込んでみました。ただし、上記のデータセットでモデルをトレーニングした後にモデルをテストすると、ランダムなシンボルが表示されます。

2021-11-02T12:30:42.893

0 投票する

1 に答える

37 参照

utf-8 - 微調整後の OpenAI 予測に関するエンコードの問題

微調整に関するこの OpenAI チュートリアルに従っています。

openai ツールで既にデータセットを生成しました。問題は、出力エンコーディング (推論結果) で UTF-8 と非 UTF-8 文字が混在していることです。

生成されたモデルは次のようになります。

たとえば、「¿Cómo estás?」と聞いたら、その文には訓練された補完があります: "Estoy bien, ¿y tú?", 推論はしばしばまったく同じものを返します (これは良いことです), 時々それは非エンコードされた単語を追加します: "Estoy bien, ¿y tú? CuÃ ©ntame algo de ti」、「é」の代わりに「é」を追加。

場合によっては、トレーニングされたのとまったく同じ文が返されることがありますが、エンコードの問題はありません。推論がエンコードされていない文字をモデルから取得しているのか、他の場所から取得しているのかわかりません。

私は何をすべきか？データセットを UTF-8 でエンコードする必要がありますか? データセットを UTF-8 のままにして、応答で不正なエンコードされた文字をデコードする必要がありますか?

微調整のための OpenAI ドキュメントには、エンコーディングについては何も含まれていません。

utf-8 character-encoding openai gpt-3 fine-tune

2021-11-11T12:44:06.600

1 2 3 4 5 6 7 8 9 10

問題タブ [fine-tune]

python - Pythonで.mdlファイルをロードするには?

utf-8 - 微調整後の OpenAI 予測に関するエンコードの問題

Reference