私は 170 のオランダ文学小説のコーパスを持っており、これに固有表現認識を適用します。オランダ語の既存の NER タガーを評価するために、このコーパスのランダム サンプルで名前付きエンティティに手動で注釈を付けたいと思います。この目的のためにbratを使用します。手動で注釈を付けたランダム サンプルは、NER タガーの評価における「ゴールド スタンダード」として機能します。文レベルでコーパスのランダム サンプルを出力する Python スクリプトを作成しました。
私の質問は、小説あたりの文の量に関して、ランダムサンプルの理想的なサイズはどれくらいですか? 今のところ、小説ごとにランダムな 100 文を使用しましたが、これにより、ほぼ 21626 行を含むかなり大きなランダム サンプルが生成されます (手動で注釈を付けるには多くの量が必要であり、ガキの作業環境が遅くなります)。