問題タブ [huggingface-tokenizers]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
552 参照

pytorch - BERT トークン化に CPU の代わりに GPU を使用する方法はありますか?

私は文の大規模なデータセット (230 万行、65 億 3000 万語) に対して BERT トークナイザーを使用しています。

そのままCPUで動作し、1コアのみで動作します。並列化を試みましたが、16 コアの CPU では処理速度が 16 倍しか向上せず、完全なデータセットをトークン化する場合でも長時間実行できます。

GPU で実行する方法や、他の方法で高速化する方法はありますか?

編集:高速トークナイザーも使用してみました:

次に、出力を batch_encode_plus に渡します。

しかし、batch_encode_plus は次のエラーを返します。

TypeError: batch_text_or_text_pairs はリストでなければなりません (取得 <class 'numpy.ndarray'>)

0 投票する
1 に答える
4283 参照

python - HuggingFace Bert 感情分析

次のエラーが表示されます。

AssertionError: text input must of type str (single example), List[str] (batch or single pretokenized example) or List[List[str]] (batch of pretokenized examples).、私が走るときclassifier(encoded)。私のテキストタイプはstr私が間違っているのかわかりません。どんな助けでも大歓迎です。