シーケンスが文であるシーケンスのラベル付けに torchtext を使用しようとしています。したがって、それぞれExample
が文とそのタグのリストです。
[
{
'texts': ["An example.", "It's the data.", "I'm talking about it."],
'labels': [0,2,0]
},
{ 'texts': ["This is another example", "This is also data."],
'labels': [0,1]
}
]
もちろん、単語レベルでのトークン化とボキャブラリも必要ですが、これを行う明確な方法はないようです。たとえば、各例の要素に適用される のTabularDataset
リストがField
必要ですが、入力を構成する文のリスト全体にテキスト フィールドをマップしたいと考えています。
たぶんこれが目的だと思いNestedField
ましたが、特に文字の埋め込みを対象としているようです。
何か不足していますか?これは torchtext で (あまり問題なく) 可能ですか? 私は答えとしてノーを受け入れても構わないと思っています:)