nlp - People、Org、Loc 以外の Lingpipe を使用して一般的なエンティティを抽出できますか?

Question

Lingpipe for NLP を読んだところ、人、場所、組織の名前の言及を識別する機能があることがわかりました。私の質問は、たとえば、テキスト内にソフトウェアプロジェクトについて言及しているドキュメントのトレーニングセットがある場合、このトレーニングセットを使用して名前付きエンティティ認識エンジンをトレーニングできるかということです。トレーニングが完了すると、テキストドキュメントのテストセットをトレーニング済みモデルにフィードできるようになり、そこにあるソフトウェアプロジェクトの言及を識別できるようになります。

この一般的な NER は NER を使用して可能ですか? もしそうなら、フィードするためにどの機能を使用する必要がありますか?

ありがとうアビシェクS

score 1 · Accepted Answer

タグ付けされたソフトウェアプロジェクトを含む十分なトレーニングデータがあれば、それは可能です。

Lingpipe を使用する場合、タスクの最初のオプションとして文字 n グラムモデルを使用します。それらは単純で、通常は機能します。結果が十分でない場合、標準の NER 機能の一部は次のとおりです。

トークン
品詞 (POS)
大文字
句読点
文字の署名: これらはいくつかのアイデアです: ( LUCENE -> AAAAAA -> A) , (Lucene -> Aaaaaaa -> Aa ), (Lucene-core --> Aaaaa-aaaa --> Aa-a)
ウィキペディア、sourceforge、またはその他の内部リソースから入手できる場合は、ガゼティア (ソフトウェアプロジェクトのリスト) を作成することも役立つ場合があります。

最後に、各トークンに対して、コンテキスト機能、現在のトークンの前のトークン (t-1、t-2...)、現在のトークンの後のトークン (t+1、t+2...)、およびそれらのトークンを追加できます。バイグラムの組み合わせ (t-2^t-1)、(t+1^t+2)。

score 0 · Accepted Answer

もちろんできます。必要なすべてのカテゴリのトレーニングデータを取得し、チュートリアルhttp://alias-i.com/lingpipe/demos/tutorial/ne/read-me.htmlに従ってください。lingpipe はハードコーディングされたもの (形状、シーケンスワード、および ngramm) のみを使用するため、機能の調整は必要ありません。

nlp - People、Org、Loc 以外の Lingpipe を使用して一般的なエンティティを抽出できますか?

2 に答える 2

Related

Reference