utf-8 - 微調整後の OpenAI 予測に関するエンコードの問題

Question

openai ツールで既にデータセットを生成しました。問題は、出力エンコーディング (推論結果) で UTF-8 と非 UTF-8 文字が混在していることです。

生成されたモデルは次のようになります。

{"prompt":"Usuario: Quién eres\\nAsistente:","completion":" Soy un Asistente\n"}
{"prompt":"Usuario: Qué puedes hacer\\nAsistente:","completion":" Ayudarte con cualquier gestión o ofrecerte información sobre tu cuenta\n"}

たとえば、「¿Cómo estás?」と聞いたら、その文には訓練された補完があります: "Estoy bien, ¿y tú?", 推論はしばしばまったく同じものを返します (これは良いことです), 時々それは非エンコードされた単語を追加します: "Estoy bien, ¿y tú? CuÃ ©ntame algo de ti」、「é」の代わりに「é」を追加。

場合によっては、トレーニングされたのとまったく同じ文が返されることがありますが、エンコードの問題はありません。推論がエンコードされていない文字をモデルから取得しているのか、他の場所から取得しているのかわかりません。

私は何をすべきか？データセットを UTF-8 でエンコードする必要がありますか? データセットを UTF-8 のままにして、応答で不正なエンコードされた文字をデコードする必要がありますか?

微調整のための OpenAI ドキュメントには、エンコーディングについては何も含まれていません。

utf-8 - 微調整後の OpenAI 予測に関するエンコードの問題

1 に答える 1

Related

Reference