問題タブ [huggingface-tokenizers]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pytorch - BERT トークン化に CPU の代わりに GPU を使用する方法はありますか?
私は文の大規模なデータセット (230 万行、65 億 3000 万語) に対して BERT トークナイザーを使用しています。
そのままCPUで動作し、1コアのみで動作します。並列化を試みましたが、16 コアの CPU では処理速度が 16 倍しか向上せず、完全なデータセットをトークン化する場合でも長時間実行できます。
GPU で実行する方法や、他の方法で高速化する方法はありますか?
編集:高速トークナイザーも使用してみました:
次に、出力を batch_encode_plus に渡します。
しかし、batch_encode_plus は次のエラーを返します。
TypeError: batch_text_or_text_pairs はリストでなければなりません (取得 <class 'numpy.ndarray'>)
python - HuggingFace Bert 感情分析
次のエラーが表示されます。
AssertionError: text input must of type str (single example), List[str] (batch or single pretokenized example) or List[List[str]] (batch of pretokenized examples).
、私が走るときclassifier(encoded)
。私のテキストタイプはstr
私が間違っているのかわかりません。どんな助けでも大歓迎です。