会社名を含むテキストの場合、請負業者 (タスクを実行する会社) とプリンシパル (請負業者を雇用する会社) を自動的にタグ付けするモデルをトレーニングしたいと考えています。
例文は次のようになります。
Blossom Inc. は、Big Think のコンサルタントを雇って、アウトソーシング戦略を開発しました。
Blossom Incがプリンシパル、Big Thinkが請負業者です。
私の最初の質問:トレーニング セットのプリンシパルと請負業者のみにタグを付けるだけで十分ですか? それとも、POS タグを追加で使用する方がよいでしょうか?
つまり、どちらか
Blossom/PRINCIPAL Inc./PRINCIPAL 採用/NN the/NN コンサルタント/NN of/NN Big/CONTRACTOR Think/CONTRACTOR to/NN development/NN an/NN outsourcing/NN strategy/NN ./.
また
Blossom/PRINCIPAL Inc./PRINCIPAL 採用/VBZ the/DT コンサルタント/NNS of/IN Big/CONTRACTOR Think/CONTRACTOR to/TO development/VB an/DT outsourcing/NN 戦略/NN ./.
2 番目の質問:トレーニング セットを取得したら、nltk-package のどのアルゴリズムが最も有望ですか? N-Gram Tagger、Brill Tagger、TnT Tagger、Maxent Classifier、Naive Bayes、...? それとも、ここで完全に間違った方向に進んでいますか?
私は NLP を初めて使用するので、トレーニング セットのタグ付けに多くの時間を費やす前にアドバイスを求めたいと思いました。そして、私のテキストはドイツ語で書かれているため、いくつかの問題が発生する可能性があります...アドバイスをありがとう!