0

この論文のように、中国語の単語セグメンタを構築しようとしています。私の理解が正しければ、彼らは CRF++ で 2 タグ セグメンテーション アプローチを使用しています。私の質問は、CRF++ の機能テンプレートとして、その論文 (egT(-1)C(0)T(0)) でタグ遷移を行う方法ですか? たとえば、そのようなトレーニング データの場合:

共B

同 M

創B

造M

美B <- 現在の単語

好M

B

新B

世B

紀M

CRF++ で機能 T(-1)C(0)T(0) -> M/美/B を持つことは可能ですか? U01:%x[-1,1]/%x[0,0]/%x[0,1] などの機能テンプレートを追加しようとしましたが、失敗しました。B/I タグはテスト データ (生の中国語の文章など) でタグ付けしたいタグであるため、私も混乱しています。なぜこのタグを論文の特徴として使用できるのでしょうか? それとも私は何かを誤解しましたか?

4

1 に答える 1

0

CRF++ の T(-1)C(0)T(0) -> M/美/B のような機能は、次のように表すことができます。

B01:%x[0,0]

違いに注意してください。UではなくB

U01:%x[0,0] を使用すると、「美/B」のような機能を意味します。

これは、6 年前に初めて CRF++ を使用したときにも少し混乱しました。これがあなたを助けることを願っています。


CRF では、機能の説明にラベルが含まれます。つまり、以下は 0-1 の機能です。 現在の文字は「美」で、現在のラベルは「B」です。

CRF++ (CRF を実装したツール) の「テンプレート」が行うことは、テンプレートで定義されたコンテキストを指定してすべてのラベルを列挙することです。

したがって、あなたの例では、 U01:%x[0,0] は「U01:美_y=B」と「U01:美_y=M」の2つの機能を自動的に導入します

于 2016-04-12T18:48:14.753 に答える