問題タブ [huggingface-tokenizers]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
884 参照

huggingface-transformers - データセット、トークナイザー、トーチ データセットとデータローダーによるオンザフライ トークン化

「オンザフライ」のトークン化について質問があります。この質問は、「Transformers と Tokenizers を使用してゼロから新しい言語モデルをトレーニングする方法」を読むことで引き出されました。最後に、「データセットが非常に大きい場合は、前処理ステップとしてではなく、その場でサンプルを読み込んでトークン化することを選択できます」という文があります。datasetsと の両方を組み合わせたソリューションを考えてみましたがtokenizers、適切なパターンを見つけることができませんでした。

このソリューションでは、データセットを Pytorch データセットにラップする必要があると思います。

ドキュメントの具体例として

トークナイザーのベクトル化された機能を利用する「オンザフライ」トークン化でこれをどのように実装しますか?