Bangla の Maltparser モデルをトレーニングしようとしています。Conllu Format で小さなコーパスに注釈を付けました。しかし、それは私にヌルポインタエラーを与えます。そこで、UDのウェブサイトから集めたツリーバンクで試してみました。そして、それらのデータセットで動作します。私の質問は
XPOSTAG なしで Maltparser モデルをトレーニングできますか? UPOSTAG フィールドに注釈を付けましたが、XPOSTAG フィールドは UPOSTAG の単なるコピーです。XPOSTAG に注釈を付ける必要がありますか? これが、私のツリーバンクと UD ツリーバンクの唯一の違いです。
評価目的なので、UPOSTAG を XPOSTAG に自動変換できますか?
参照: http://universaldependencies.org/format.html
理解を深めるために、私の銀行とUD銀行の両方の例を挙げています
私の例の銀行(間違いやいくつかの空のフィールドがあります)(言語はバングラ語です)
1 Ajake _ NOUN NOUN _ 5 iobj _ _
2 rAtera _ NOUN NOUN _ 1 nmod _ _
3 AbahAoYA _ NOUN NOUN _ 5 nsubj _ _
4 kemana _ ADV ADV _ 5 advmod _ _
5 hate _ VERB VERB _ 0 root _ _
6 pAre _ AUX AUX _ 5 aux _ SpaceAfter=No
7 ? _ _ _ _ _ _ _ _
1 Ajake _ NOUN NOUN _ 5 iobj _ _
2 bikAlera _ NOUN NOUN _ 1 nmod _ _
3 paribesha _ NOUN NOUN _ 5 nsubj _ _
4 kemana _ ADV ADV _ 5 advmod _ _
5 hate _ VERB VERB _ 0 root _ _
6 pAre _ AUX AUX _ 5 aux _ SpaceAfter=No
7 ? _ _ _ _ _ _ _ _
UDバンク
1 From _ ADP IN _ 3 case _ _
2 the _ DET DT _ 3 det _ _
3 AP _ PROPN NNP _ 4 nmod _ _
4 comes _ VERB VBZ _ 0 root _ _
5 this _ DET DT _ 6 det _ _
6 story _ NOUN NN _ 4 nsubj _ _
7 : _ PUNCT : _ 4 punct _ _
1 President _ PROPN NNP _ 2 compound _ _
2 Bush _ PROPN NNP _ 5 nsubj _ _
3 on _ ADP IN _ 4 case _ _
4 Tuesday _ PROPN NNP _ 5 nmod _ _
5 nominated _ VERB VBD _ 0 root _ _
6 two _ NUM CD _ 7 nummod _ _
7 individuals _ NOUN NNS _ 5 dobj _ _
8 to _ PART TO _ 9 mark _ _
9 replace _ VERB VB _ 5 advcl _ _
10 retiring _ VERB VBG _ 11 amod _ _
11 jurists _ NOUN NNS _ 9 dobj _ _
12 on _ ADP IN _ 14 case _ _
13 federal _ ADJ JJ _ 14 amod _ _
14 courts _ NOUN NNS _ 11 nmod _ _
15 in _ ADP IN _ 18 case _ _
16 the _ DET DT _ 18 det _ _
17 Washington _ PROPN NNP _ 18 compound _ _
18 area _ NOUN NN _ 14 nmod _ _
19 . _ PUNCT . _ 5 punct _ _