1

トランスフォーマー モデルでテキストをベクトル化するために、spacy 3.0 を使用しています。データのプライバシー上の理由により、ベクトル化は、モデルをトレーニングするマシンとは別のマシンで実行する必要があります。生成してマシン間で転送する必要があるデータの量を減らすために、次のようにテキストのトークン ID を抽出します。

import spacy
nlp = spacy.load("de_dep_news_trf")
doc = nlp("Eine Bank steht im Park.")
print(doc._.trf_data.tokens["input_ids"])

返す

tensor([[    3,   917,  2565,  1302,   106,  3087, 26914,     4]])

de_dep_news_trfID を取得したので、spacy を使用して言語モデル ( ) から正しいテンソルを抽出することは可能ですか?

4

1 に答える 1