問題タブ [huggingface-tokenizers]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
huggingface-transformers - データセット、トークナイザー、トーチ データセットとデータローダーによるオンザフライ トークン化
「オンザフライ」のトークン化について質問があります。この質問は、「Transformers と Tokenizers を使用してゼロから新しい言語モデルをトレーニングする方法」を読むことで引き出されました。最後に、「データセットが非常に大きい場合は、前処理ステップとしてではなく、その場でサンプルを読み込んでトークン化することを選択できます」という文があります。datasets
と の両方を組み合わせたソリューションを考えてみましたがtokenizers
、適切なパターンを見つけることができませんでした。
このソリューションでは、データセットを Pytorch データセットにラップする必要があると思います。
ドキュメントの具体例として
トークナイザーのベクトル化された機能を利用する「オンザフライ」トークン化でこれをどのように実装しますか?