nlp - CRF++ のユーザー定義機能

Question

CRF++ テンプレートに機能を追加しようとしました。

How can I tell CRF++ classifier that a word x is captilized or Understanding punctuations? によると、

トレーニングサンプル

The  DT  0  1   0   1   B-MISC
Oxford  NNP 0   1   0   1   I-MISC
Companion   NNP 0   1   0   1   I-MISC
to  TO  0   0   0   0   I-MISC
Philosophy  NNP 0   1   0   1   I-MISC

機能テンプレート

# Unigram
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-1,0]/%x[0,0]
U06:%x[0,0]/%x[1,0]
U07:%x[-2,0]/%x[-1,0]/%x[0,0]

#shape feature
U08:%x[-2,2]
U09:%x[-1,2]
U10:%x[0,2]
U11:%x[1,2]
U12:%x[2,2]

B

トレーニングフェーズは問題ありません。しかし、crf_testで出力が得られません

tilney@ubuntu:/data/wikipedia/en$ crf_test -m validation_model test.data
tilney@ubuntu:/data/wikipedia/en$

上記の形状の懸念を無視すれば、すべてうまくいきます。どこで私は間違えましたか？

score 1 · Accepted Answer

私はこれを理解しました。それは私のテストデータの問題です。すべての機能はトレーニング済みのモデルから取得する必要があると考えたため、テストデータには単語タグの 2 つの列しかありません。これにより、テストファイルはトレーニングデータとまったく同じ形式である必要があることがわかりました。

nlp - CRF++ のユーザー定義機能

1 に答える 1

Related

Reference