2

私たちは最近のプロジェクトで NLTK ライブラリを使用しており、主に名前付きエンティティの部分に関心があります。

一般に、NEChunkParser クラスを使用すると、良い結果が得られます。ただし、パーサーに独自の用語を提供する方法を見つけようとしていますが、成功していません。

たとえば、私の名前 (Shay) がいくつかの場所に表示されるテスト ドキュメントがあります。ライブラリは私を GPE として見つけますが、私は PERSON として見つけてもらいたいのです...

パーサーが名前付きエンティティを必要に応じて解釈できるように、ある種のカスタム ファイル/コードを提供する方法はありますか?

ありがとう!

4

1 に答える 1

3

簡単な解決策は、誤分類されていることがわかっているエンティティのリストをコンパイルNEChunkParserし、後処理モジュールで出力をフィルター処理して、これらのエンティティのタグを必要なタグに置き換えることです。

適切な解決策は、NE タガーを再トレーニングすることです。NLTKのソース コードNEChunkParserを見ると、これが MaxEnt 分類器、つまり機械学習アルゴリズムに基づいていることがわかります。処理したいデータの種類を代表するコーパス (データセット) をコンパイルして注釈を付けてから、このコーパスで NE タガーを再トレーニングする必要があります。(これは難しく、時間がかかり、費用がかかる可能性があります。)

于 2010-09-27T14:16:10.050 に答える