1

Lingpipe for NLP を読んだところ、人、場所、組織の名前の言及を識別する機能があることがわかりました。私の質問は、たとえば、テキスト内にソフトウェア プロジェクトについて言及しているドキュメントのトレーニング セットがある場合、このトレーニング セットを使用して名前付きエンティティ認識エンジンをトレーニングできるかということです。トレーニングが完了すると、テキスト ドキュメントのテスト セットをトレーニング済みモデルにフィードできるようになり、そこにあるソフトウェア プロジェクトの言及を識別できるようになります。

この一般的な NER は NER を使用して可能ですか? もしそうなら、フィードするためにどの機能を使用する必要がありますか?

ありがとうアビシェクS

4

2 に答える 2

1

タグ付けされたソフトウェア プロジェクトを含む十分なトレーニング データがあれば、それは可能です。

Lingpipe を使用する場合、タスクの最初のオプションとして文字 n グラム モデルを使用します。それらは単純で、通常は機能します。結果が十分でない場合、標準の NER 機能の一部は次のとおりです。

  • トークン
  • 品詞 (POS)
  • 大文字
  • 句読点
  • 文字の署名: これらはいくつかのアイデアです: ( LUCENE -> AAAAAA -> A) , (Lucene -> Aaaaaaa -> Aa ), (Lucene-core --> Aaaaa-aaaa --> Aa-a)
  • ウィキペディア、sourceforge、またはその他の内部リソースから入手できる場合は、ガゼティア (ソフトウェア プロジェクトのリスト) を作成することも役立つ場合があります。

最後に、各トークンに対して、コンテキスト機能、現在のトークンの前のトークン (t-1、t-2...)、現在のトークンの後のトークン (t+1、t+2...)、およびそれらのトークンを追加できます。バイグラムの組み合わせ (t-2^t-1)、(t+1^t+2)。

于 2011-09-25T10:24:26.143 に答える
0

もちろんできます。必要なすべてのカテゴリのトレーニング データを取得し、チュートリアルhttp://alias-i.com/lingpipe/demos/tutorial/ne/read-me.htmlに従ってください。lingpipe はハードコーディングされたもの (形状、シーケンス ワード、および ngramm) のみを使用するため、機能の調整は必要ありません。

于 2011-09-26T07:41:19.797 に答える