python - Named Entity Recognition ゴールドスタンダードコーパスのサンプルサイズ

Question

私は 170 のオランダ文学小説のコーパスを持っており、これに固有表現認識を適用します。オランダ語の既存の NER タガーを評価するために、このコーパスのランダムサンプルで名前付きエンティティに手動で注釈を付けたいと思います。この目的のためにbratを使用します。手動で注釈を付けたランダムサンプルは、NER タガーの評価における「ゴールドスタンダード」として機能します。文レベルでコーパスのランダムサンプルを出力する Python スクリプトを作成しました。

私の質問は、小説あたりの文の量に関して、ランダムサンプルの理想的なサイズはどれくらいですか? 今のところ、小説ごとにランダムな 100 文を使用しましたが、これにより、ほぼ 21626 行を含むかなり大きなランダムサンプルが生成されます (手動で注釈を付けるには多くの量が必要であり、ガキの作業環境が遅くなります)。

score 2 · Accepted Answer

NB、実際の回答の前に: 私が見る最大の問題は、ツールのみを評価できるということです。その170冊。したがって、せいぜい、評価した NER ツールがそれらの本または同様のテキストでどの程度うまく機能するかがわかります。しかし、それは明らかだと思います...

サンプルサイズに関しては、1冊の本に1ダース以上のランダムな文が必要になることはないと私は推測しています. サンプルサイズがすでに十分に大きいかどうかを確認する簡単な方法は次のとおりです。注釈を付けた文の半分のみをランダムに選択し (本ごとに階層化します!)、そのサブセットのすべてのツールを評価します。それを数回行い、同じツールの結果が実行間で大きく異なるかどうかを確認します (たとえば、F スコアを使用する場合は +/- 0.1 以上です。ほとんどの場合、重要な検出にどれだけ「正確」である必要があるかによって異なります)。ツール間の違い)。分散が非常に大きい場合は、さらにランダムな文に注釈を付け続けます。数値が安定し始めたら、問題はなく、注釈を付けなくてもかまいません。

score 1 · Accepted Answer

確かに、「理想的な」サイズは...コーパス全体です:)

結果はタイポロジーの詳細度に相関します。PERS、LOC、ORG だけでは最小限のサイズが必要ですが、きめの細かいタイポロジーや完全な曖昧さ回避 (リンク) についてはどうでしょうか? パフォーマンスが良い場合は (検証するのに十分なだけの) 多くのデータは必要ないと思いますが、パフォーマンスが低い場合は、エラーをより詳細に表示するためにより多くのデータが必要になるはずです。

指標としてはクロスバリデーションが標準的な方法とされており、コーパスの10%を使って評価することが多い(ただし評価は10回)。

さらに、古代の小説を扱う場合、語彙範囲の問題に直面する可能性があります。多くの古い固有名は、利用可能なソフトウェアの語彙リソースに含まれておらず、これは NER の精度にとって深刻な欠点です。したがって、この問題がパフォーマンスに与える影響を測定するために、コーパスを数十年または数世紀ごとに分割し、複数の評価を行うことは良い考えかもしれません。

python - Named Entity Recognition ゴールド スタンダード コーパスのサンプル サイズ

2 に答える 2

Related

Reference

python - Named Entity Recognition ゴールドスタンダードコーパスのサンプルサイズ