問題タブ [huggingface-transformers]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Transformers と BERT: エンコード時の所有格とアポストロフィの扱い
次の 2 つの文を考えてみましょう。
それでは、トークン化してデコードしましょう。
我々が得る:
私の質問は、smiths'houseのような所有格で不足しているスペースをどのように扱うかです。
私にとっては、トランスフォーマーでのトークン化のプロセスが正しく行われていないようです。の出力を考えてみましょう
我々が得る:
したがって、このステップでは、最後のアポストロフィに関する重要な情報がすでに失われています。トークン化が別の方法で行われた場合は、はるかに優れています。
このように、トークン化はアポストロフィに関するすべての情報を保持し、所有格の問題は発生しません。
python-3.x - tf.py_function からテンソルの辞書を返す方法は?
通常、Transformers トークナイザーは入力を辞書としてエンコードします。
また、大規模なデータセットでより優れたパフォーマンス処理をアーカイブするにDataset.map
は、入力データセットの各要素にトークナイザー関数を適用するための使用を含むパイプラインを実装することをお勧めします。Tensorflow チュートリアルで行ったのとまったく同じ: Load text。
ただし、tf.py_function
(map python 関数をラップするために使用される) は、上記のようにテンソルの辞書を返すことをサポートしていません。
たとえば、Load テキストのトークナイザー (エンコーダー)が次の辞書を返す場合:
テンソルの目的の辞書を取得するためにTout
、誰かがのパラメータをどのように設定できますか:tf.py_function
?