トランスフォーマー モデルでテキストをベクトル化するために、spacy 3.0 を使用しています。データのプライバシー上の理由により、ベクトル化は、モデルをトレーニングするマシンとは別のマシンで実行する必要があります。生成してマシン間で転送する必要があるデータの量を減らすために、次のようにテキストのトークン ID を抽出します。
import spacy
nlp = spacy.load("de_dep_news_trf")
doc = nlp("Eine Bank steht im Park.")
print(doc._.trf_data.tokens["input_ids"])
返す
tensor([[ 3, 917, 2565, 1302, 106, 3087, 26914, 4]])
de_dep_news_trf
ID を取得したので、spacy を使用して言語モデル ( ) から正しいテンソルを抽出することは可能ですか?