nlp - NLTK のカスタムファイル/コードを使用してエンティティの命名を改善する

Question

私たちは最近のプロジェクトで NLTK ライブラリを使用しており、主に名前付きエンティティの部分に関心があります。

一般に、NEChunkParser クラスを使用すると、良い結果が得られます。ただし、パーサーに独自の用語を提供する方法を見つけようとしていますが、成功していません。

たとえば、私の名前 (Shay) がいくつかの場所に表示されるテストドキュメントがあります。ライブラリは私を GPE として見つけますが、私は PERSON として見つけてもらいたいのです...

パーサーが名前付きエンティティを必要に応じて解釈できるように、ある種のカスタムファイル/コードを提供する方法はありますか?

ありがとう！

score 3 · Accepted Answer

簡単な解決策は、誤分類されていることがわかっているエンティティのリストをコンパイルNEChunkParserし、後処理モジュールで出力をフィルター処理して、これらのエンティティのタグを必要なタグに置き換えることです。

適切な解決策は、NE タガーを再トレーニングすることです。NLTKのソースコードNEChunkParserを見ると、これが MaxEnt 分類器、つまり機械学習アルゴリズムに基づいていることがわかります。処理したいデータの種類を代表するコーパス (データセット) をコンパイルして注釈を付けてから、このコーパスで NE タガーを再トレーニングする必要があります。(これは難しく、時間がかかり、費用がかかる可能性があります。)

nlp - NLTK のカスタム ファイル/コードを使用してエンティティの命名を改善する

1 に答える 1

Related

Reference

nlp - NLTK のカスタムファイル/コードを使用してエンティティの命名を改善する