特定のドメイン内の NE を識別する分類器を構築する必要があります。たとえば、私のドメインがホッケーまたはフットボールの場合、分類器はそのドメインの NE を受け入れる必要がありますが、Web ページに表示されるすべての代名詞を受け入れるわけではありません。私の最終的な目標は、NER によるテキスト分類を改善することです。
この分野で働いている人のために、そのような分類器をどのように構築すればよいか教えてください。ありがとう!
特定のドメイン内の NE を識別する分類器を構築する必要があります。たとえば、私のドメインがホッケーまたはフットボールの場合、分類器はそのドメインの NE を受け入れる必要がありますが、Web ページに表示されるすべての代名詞を受け入れるわけではありません。私の最終的な目標は、NER によるテキスト分類を改善することです。
この分野で働いている人のために、そのような分類器をどのように構築すればよいか教えてください。ありがとう!
代名詞を無視するだけの場合は、POSタガーを実行してからNERアルゴリズム(スタンフォードパッケージが一般的な実装です)を実行してから、代名詞である名前付きエンティティを無視できます。ただし、代名詞は名前付きエンティティを指す場合があり、分類子のパフォーマンスにとって重要である場合とそうでない場合があります。試してみることを確実に伝える唯一の方法。
わずかに無関係なコメント-ドメイン固有のデータ(ホッケーなど)でトレーニングされたNERシステムは、エンティティが表示されるコンテキストの一部を確認しているため、そのドメインからエンティティを取得する可能性が高くなります。システムによっては、選択する場合もあります。構文、単語の形のパターンなどのために、他のドメイン(私があなたの質問を正しく理解している場合、あなたは望まない)からのエンティティをアップします。