java - Eclipseでスタンフォードnlp pos taggerを再トレーニングする

Question

私はnlpにかなり慣れていないので、posのタグ付けを理解しようとしています. 現在、スタンフォード nlp pos tagger を試しています。URL: http://nlp.stanford.edu/software/tagger.shtml

上記のリンクから、次の文があります。

タガーは、その言語の POS 注釈付きトレーニングテキストがあれば、任意の言語で再トレーニングできます。

しかし、私はそれを機能させることができません。今できることは、タグ付けするテキストファイルを指定することだけです。たとえば、String test = "this is a test";this_DT is_VBZ a_DT test_NN が返されます。

タガーを再トレーニングするにはどうすればよいですか? 上記の文字列を this_DT is_VBZ a_DT test_VB? として返したいとしましょう。

ここでの回答に感謝します。

score 0 · Accepted Answer

修正しようとしている現象/現象の多くの例を含む POS タグ付きコーパスがない限り、タガーモデルの再トレーニングに成功しない可能性があります。明確にするために、スタンフォードのツールがトレーニングを行う方法に基づいて、モデルを変更するために単一の例を追加するメカニズムはありません。完全なコーパスを用意して、新たに再トレーニングする必要があります。

実際にコーパスをお持ちの場合は、以前に投稿されたこの質問を参照して、ファイル形式の詳細と、スタンフォード CoreNLP モデルをトレーニングするための適切な手順を取得してください。

それ以外の場合は、動作をオーバーライドするいくつかの後処理ルール/正規表現パターンを作成することをお勧めします。このようなルールの用途は、単語リスト内の人や場所が固有名詞 (NNP) としてタグ付けされるようにすることです。

幸運を！

java - Eclipseでスタンフォードnlp pos taggerを再トレーニングする

1 に答える 1

Related

Reference