3

OpenNLP 用のカスタム トレーニング セットを作成する必要がある場合があります。これには、多数のエントリに手動で注釈を付ける必要があります。

物事を簡単にするために、GUI ソリューションが最良のアイデアかもしれません (注釈タグを手動で書くのはクールではありません)。必要なもののように見える BRAT を発見しました。

BRAT は注釈付きファイル (.ann) をエクスポートできますが、OpenNLP のマニュアルでこのファイルタイプへの参照が見つからず、これが機能するかどうかわかりません。

私がやりたいのは、この注釈付きファイルを BRAT からエクスポートし、それを使用して OpenNLP のモデルをトレーニングすることです。コードまたは CLI を使用して実行できるかどうかはあまり気にしません。

誰かが私を正しい方向に向けることができますか?

4

1 に答える 1

2

OpenNLP は、Name Finder のトレーニングと評価のための BRAT 形式をネイティブでサポートしています。他のコンポーネントは現在サポートされていません。他のコンポーネントのサポートを追加することはおそらく難しくありません。興味がある場合は、opennlp-dev リストでそれを求める必要があります。

CLI を使用して、brat でモデルをトレーニングできます。使用方法を表示するコマンドは次のとおりです。

  • bin/opennlp TokenNameFinderTrainer.brat

モデルをトレーニングするには、次の引数が必須です。

  • bratDataDir これは、.ann および .txt ファイルを含むフォルダーを指す必要があります
  • これは、brat が注釈プロジェクトに使用している構成ファイルを指している必要があります。
  • lang テキスト文書の言語 (例: en)
  • model 作成されたモデル ファイルの名前

Name Finder では、入力を文とトークンに分割する必要があります。デフォルトでは、1 行に 1 つの文を想定し、空白のトークン化を適用します。この動作は、ruleBasedTokenizer または tokenizerModel 引数で調整できます。さらに、sentenceDetector Model 引数を介してカスタム文検出器モデルを使用することができます。

モデルを評価するには、名前に .brat を付けることで、相互検証ツールと評価ツールを同様の方法で使用できます。

  • bin/opennlp TokenNameFinderCrossValidator.brat
  • bin/opennlp TokenNameFinderEvaluator.brat

注釈プロジェクトを高速化するには、opennlp-brat-annotator を使用できます。Name Finder モデルをロードし、BRAT と統合してドキュメントに自動的に注釈を付けることができます。これにより、注釈作業を高速化できます。そのコンポーネントは opennlp サンドボックスにあります。

于 2016-10-13T12:19:09.160 に答える