OpenNLP は、Name Finder のトレーニングと評価のための BRAT 形式をネイティブでサポートしています。他のコンポーネントは現在サポートされていません。他のコンポーネントのサポートを追加することはおそらく難しくありません。興味がある場合は、opennlp-dev リストでそれを求める必要があります。
CLI を使用して、brat でモデルをトレーニングできます。使用方法を表示するコマンドは次のとおりです。
- bin/opennlp TokenNameFinderTrainer.brat
モデルをトレーニングするには、次の引数が必須です。
- bratDataDir これは、.ann および .txt ファイルを含むフォルダーを指す必要があります
- これは、brat が注釈プロジェクトに使用している構成ファイルを指している必要があります。
- lang テキスト文書の言語 (例: en)
- model 作成されたモデル ファイルの名前
Name Finder では、入力を文とトークンに分割する必要があります。デフォルトでは、1 行に 1 つの文を想定し、空白のトークン化を適用します。この動作は、ruleBasedTokenizer または tokenizerModel 引数で調整できます。さらに、sentenceDetector Model 引数を介してカスタム文検出器モデルを使用することができます。
モデルを評価するには、名前に .brat を付けることで、相互検証ツールと評価ツールを同様の方法で使用できます。
- bin/opennlp TokenNameFinderCrossValidator.brat
- bin/opennlp TokenNameFinderEvaluator.brat
注釈プロジェクトを高速化するには、opennlp-brat-annotator を使用できます。Name Finder モデルをロードし、BRAT と統合してドキュメントに自動的に注釈を付けることができます。これにより、注釈作業を高速化できます。そのコンポーネントは opennlp サンドボックスにあります。