2

NLTKパッケージの基本的なタガーを使用しています。以前はOpenNLPのタグ付けシステムを使用していました。NLTKには、後でプロジェクトで使用できるビルド済みのモジュールが多いため、切り替えています。しかし、私が今見逃していることの1つは、タガーによって与えられる「信頼度」の値です。

もともとOpenNLPの設定で、タガーがその決定にどれほど自信を持っているかを示す数値(0から1の範囲)を取得しました(0はまったく自信がなく、1は完全に自信があります)。NLTKのタグ付けシステムで同様に機能する値を誰かが知っているかどうか疑問に思いました。同一のシステムである必要はありませんが、特定のタグが再確認すべきものであるかどうかを簡単に確認できるような数値ランキングを望んでいました。

NLTKで私が持っていることの1つは、信頼値に似ています。タガーの全体的な精度評価ですが、これは事前にタグ付けされたソースでのみ提供され、単語ごとではなくドキュメント全体を対象としています。

私の考えでは、単語にどのタグが選択されるかについて統計的な決定があった可能性があり、それを取得できれば、同様の手段として使用できる可能性がありますが、そのようなものは見つかりません。

ありがとう!

4

1 に答える 1

3

NLTK タガーは各トークンの直接的な信頼値を提供しませんが、単純ベイズ タガーはカットオフ確率を渡すことができます。

tagger = ClassifierBasedPOSTagger(train=training_sentences, cutoff_prob=0.95)

POS タグの信頼度が 95% 未満の場合、タガーは None を返します。0.95 が適合率と再現率の適切なトレードオフであることがわかりました (もちろん、これはアプリケーションのニーズによって異なります)。

于 2013-01-08T09:55:43.563 に答える