2

次のような一連の文の ID を取得するために、XLM-RoBERTa トークナイザーを使用しました。

["loving is great", "This is another example"]

返される ID が、文内の空白で区切られたトークンの数と同じ数であるとは限らないことがわかります。たとえば、最初の文は に対応し[[0, 459, 6496, 83, 6782, 2]]、と ID から単語埋め込みのマトリックスを取得した後、いくつかの特定のトークンに対応する単語埋め込み/ベクトルのみを識別しようとしていました。それを行う方法はありますか? 元のトークンに複数の ID が割り当てられることがあり、これが予測できない場合、これがどのように可能になるかわかりません。loving4566496

より一般的には、私のタスクは、文内の特定のトークンの単語埋め込みを取得することです。したがって、私の目標は、最初に文を使用して、単一のトークンの単語埋め込みを構文コンテキスト内で計算できるようにすることですが、次に特定したいと思います/文中のすべてのトークンのベクトルではなく、一部の特定のトークンのベクトルのみを保持します。

4

1 に答える 1