java - スタンフォードタガー用の独自のトレーニングコーパスを作成するにはどうすればよいですか?

Question

私は略記や地元の専門用語がたくさんある非公式の英語のテキストを分析しなければなりません。そのため、スタンフォードタガーのモデルを作成することを考えていました。

スタンフォードタガーのトレーニング用に独自のラベル付きコーパスのセットを作成するにはどうすればよいですか?

コーパスの構文と、望ましいパフォーマンスを達成するためにコーパスの長さはどのくらいですか?

score 8 · Accepted Answer

PoS タガーをトレーニングするには、MaxentTagger クラスの JavaDocsにも含まれているこのメーリングリストの投稿を参照してください。

edu.stanford.nlp.tagger.maxent.Train クラスのjavadocでは、トレーニング形式が指定されています。

トレーニングファイルは次の形式である必要があります: スペースまたはタブで区切られた行ごとに 1 つの単語と 1 つのタグ。各文は EOS 単語タグのペアで終了する必要があります。（実際、今でもそうであるかどうかは完全にはわかりませんが、おそらく害はないでしょう。-wmorgan）

score 1 · Accepted Answer

For the Stanford Parser, you use Penn treebank format, and see Stanford's FAQ about the exact commands to use. The JavaDocs for the LexicalizedParser class also give appropriate commands, particularly:

java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \
   -train trainFilesPath fileRange
   -saveToSerializedFile serializedGrammarFilename

score 0 · Accepted Answer

私が試した: java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \ -train trainFilesPath fileRange -saveToSerializedFile serializedGrammarFilename

しかし、私はエラーがありました:

エラー: メインクラス edu.stanford.nlp.parser.lexparser.LexicalizedParser が見つからないか、読み込めませんでした

java - スタンフォード タガー用の独自のトレーニング コーパスを作成するにはどうすればよいですか?

4 に答える 4

Related

Reference

java - スタンフォードタガー用の独自のトレーニングコーパスを作成するにはどうすればよいですか?