0

次の形式のデータが必要です

(u'Melbourne', u'NP', u'B-LOC'),
 (u'(', u'Fpa', u'O'),
 (u'Australia', u'NP', u'B-LOC'),
 (u')', u'Fpt', u'O'),
 (u',', u'Fc', u'O'),

私が持っているのはtxtファイルだけです。NERタスクのCRFモデルにはこのデータが必要です。Python 用の crf スイートを使用する予定ですが、トレーニング データにラベルを付ける方法がよくわかりません。pos タグを付けるだけで済みますが、名前付きエンティティを追加するには、トレーニング データに 2 つのカスタム ラベルを付ける必要があるためです。

4

3 に答える 3

3

CRF モデルをトレーニングする場合は、注釈付きデータが必要です。一部のタスクでは、既存のコーパスに依存することができますが、タスクが新しい場合は、自分でエンティティに注釈を付ける必要があります。役立つツールがあります。たとえば、http://brat.nlplab.org/をご覧ください。GATEには注釈ツールも組み込まれています。

POS タグは機能としてよく使用されますが、厳密には必須ではありません (他の多くの機能も使用する必要があります)。

于 2016-12-05T13:32:03.747 に答える
1

Locationまたはエンティティだけではなく、さまざまなエンティティを使用して独自のトレーニング データを作成する場合Personは、私の回答を参照してください。より多くの名前付きエンティティ タイプを認識するようにスタンフォード NER システムをトレーニングすることは可能ですか?

于 2016-12-13T11:21:46.103 に答える