特定の分野 (例: 野球) の名前付きエンティティを認識したい。StanfordNER、LingPipe、AlchemyAPI などの利用可能なツールがあることを知っており、それらを使って少しテストを行いました。しかし、先に述べたように、私が望んでいるのは分野固有のものです。これはどのように可能ですか?
2 に答える
1つのアプローチは
一般的な (ドメイン固有ではない) ツールを使用して人の名前を検出する
件名分類子を使用して、ドメインにないテキストを除外します
データセットの合計サイズが十分であり、抽出器と分類器の精度が十分に高い場合、その結果を使用して、問題のドメインに密接に関連する人々の名前のリストを取得できます(たとえば、結果をそれらに制限することによって)。他のテキストよりもドメイン固有のテキストではるかに頻繁に言及されています)。
野球の場合、これは野球に関連する人々のリストを取得するためのかなり良い方法です。ただし、野球選手のみのリストを取得するのは適切な方法ではありません。後者については、名前が言及されている正確な文脈とそれらについて言われていることを分析する必要があります。しかし、おそらくそれは必須ではありません。
編集:サブジェクト分類子とは、他の人が単にcategorization、document classification、domain classificationなどと呼ぶものと同じ意味です。すぐに使用できるツールの例には、Python-NLTK の分類子 (例についてはこちらを参照) や LingPipe の分類子 (こちらを参照)が含まれます。
250 以上のカテゴリをカバーする smile-ner.appspot.com をご覧ください。特に、スポーツに関する多くの人/チーム/クラブをカバーしています。あなたの目的に役立つかもしれません。