NLTK を使用して、Python で名前付きエンティティの認識を試みています。スキルの個人リストを抽出したい。スキルのリストがあり、求人でそれらを検索し、スキルにタグを付けたいと考えています。NLTK には、Person、Location などの事前定義タグ用の NER タグがあることに気付きました。使用できる Python の外部ガゼッター タガーはありますか? 用語の検索よりも洗練された方法(複数の単語の用語)を行う方法はありますか?
ありがとう、アサフ
NLTK を使用して、Python で名前付きエンティティの認識を試みています。スキルの個人リストを抽出したい。スキルのリストがあり、求人でそれらを検索し、スキルにタグを付けたいと考えています。NLTK には、Person、Location などの事前定義タグ用の NER タグがあることに気付きました。使用できる Python の外部ガゼッター タガーはありますか? 用語の検索よりも洗練された方法(複数の単語の用語)を行う方法はありますか?
ありがとう、アサフ
最近、NLTK を十分に使用していませんが、スキルとわかっている単語があれば、NER を実行する必要はありません。テキスト検索だけです。
Lucene やその他の検索ライブラリを使用してテキストを検索し、注釈を付けますか? 大変な作業ですが、大量のデータを扱っている場合は問題ないかもしれません。または、正規表現検索を一緒にハックすることもできます。これは遅くなりますが、少量のデータに対してはおそらく問題なく動作し、実装がはるかに簡単になります。
RegexpTaggerを見て、最終的にRegexpParserを見てください。まさにあなたが探しているものだと思います。
独自の POS タグを作成できます。スキルをタグにマップし、文法を簡単に定義します。
tagger のサンプル コードは、この pdf にあります。