自然言語処理と GATE は初めてです。現在、 GATE / ANNIE の使い方を学んでいます。ANNIE のデフォルトの Gazetteer リストは優れていますが、明らかにすべてのリストを提供しているわけではありません。ストーリーブックのキャラクターのリストを作成する必要があります。
GATE Gazetteer Editor (Gate マニュアル 13.2.2 に記載) からリストを作成し、すべてのリストにエントリを追加するか、テキスト エディターを使用することは実用的ではないようです。 GATE を介して直接作成/編集するか、テキスト エディターを使用しますか?
2 に答える
GATEのマニュアルにあるように、テキスト エディタで既存のリストを編集できます。おそらく最も簡単な方法は、これらのリストをプログラムで作成することです。つまり、データベースにレコードがある場合は、レコードを地名辞典形式 (基本的には 1 行に 1 語) でダンプします。それらが csv または Web ページにある場合は、適切な形式にエクスポートします。
もう 1 つのオプションは、オントロジーまたはセマンティック リポジトリを使用する、より高度な地名辞典を使用することです。さまざまな地名辞典とその操作方法については、上記のマニュアル リンクを参照してください。
上記のように、データベース テーブルの列の内容を使用してリストを作成しました。Notepad++ を使用して .lst ファイルとして他のすべての .lst ファイルと同じディレクトリに保存し (私は ANNIE Gazetteer を使用しています)、Gazetteer エディターを使用して追加しました。私が遭遇した問題の 1 つは、正しいエンコーディング (UTF-8) で保存されていないことでした。GATE はそれを気に入らず、読み込み時にメッセージに表示されました。それを理解して修正したら、うまくいきました。
テキストからエンティティのリストを作成する必要がある場合は、Gazetteer リスト コレクターを調べることができます - http://gate.ac.uk/sale/tao/splitch13.html - 13.7