python - 名前付きエンティティの認識: トレーニングセットにタグを付けてアルゴリズムを選択する方法は?

Question

会社名を含むテキストの場合、請負業者 (タスクを実行する会社) とプリンシパル (請負業者を雇用する会社) を自動的にタグ付けするモデルをトレーニングしたいと考えています。

例文は次のようになります。

Blossom Inc. は、Big Think のコンサルタントを雇って、アウトソーシング戦略を開発しました。

Blossom Incがプリンシパル、Big Thinkが請負業者です。

私の最初の質問:トレーニングセットのプリンシパルと請負業者のみにタグを付けるだけで十分ですか? それとも、POS タグを追加で使用する方がよいでしょうか?

つまり、どちらか

Blossom/PRINCIPAL Inc./PRINCIPAL 採用/NN the/NN コンサルタント/NN of/NN Big/CONTRACTOR Think/CONTRACTOR to/NN development/NN an/NN outsourcing/NN strategy/NN ./.

また

Blossom/PRINCIPAL Inc./PRINCIPAL 採用/VBZ the/DT コンサルタント/NNS of/IN Big/CONTRACTOR Think/CONTRACTOR to/TO development/VB an/DT outsourcing/NN 戦略/NN ./.

2 番目の質問:トレーニングセットを取得したら、nltk-package のどのアルゴリズムが最も有望ですか? N-Gram Tagger、Brill Tagger、TnT Tagger、Maxent Classifier、Naive Bayes、...? それとも、ここで完全に間違った方向に進んでいますか?

私は NLP を初めて使用するので、トレーニングセットのタグ付けに多くの時間を費やす前にアドバイスを求めたいと思いました。そして、私のテキストはドイツ語で書かれているため、いくつかの問題が発生する可能性があります...アドバイスをありがとう!

score 0 · Accepted Answer

Named Entity Recognition(Stanford) で十分です。

POS タグを使用しても問題は解決しません。

NER モデルを生成するのに十分な量のトレーニングデータがあれば、良い結果が得られます。

スタンフォード NER を使用する場合、CRF 分類子とアルゴリズムが使用されます。

python - 名前付きエンティティの認識: トレーニング セットにタグを付けてアルゴリズムを選択する方法は?

3 に答える 3

Related

Reference

python - 名前付きエンティティの認識: トレーニングセットにタグを付けてアルゴリズムを選択する方法は?