15

私は略記や地元の専門用語がたくさんある非公式の英語のテキストを分析しなければなりません。そのため、スタンフォード タガーのモデルを作成することを考えていました。

スタンフォード タガーのトレーニング用に独自のラベル付きコーパスのセットを作成するにはどうすればよいですか?

コーパスの構文と、望ましいパフォーマンスを達成するためにコーパスの長さはどのくらいですか?

4

4 に答える 4

8

PoS タガーをトレーニングするには、MaxentTagger クラスの JavaDocsも含まれているこのメーリング リストの投稿を参照してください。

edu.stanford.nlp.tagger.maxent.Train クラスのjavadocでは、トレーニング形式が指定されています。

トレーニング ファイルは次の形式である必要があります: スペースまたはタブで区切られた行ごとに 1 つの単語と 1 つのタグ。各文は EOS 単語タグのペアで終了する必要があります。(実際、今でもそうであるかどうかは完全にはわかりませんが、おそらく害はないでしょう。-wmorgan)

于 2010-07-01T13:20:37.877 に答える
1

For the Stanford Parser, you use Penn treebank format, and see Stanford's FAQ about the exact commands to use. The JavaDocs for the LexicalizedParser class also give appropriate commands, particularly:

java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \
   -train trainFilesPath fileRange
   -saveToSerializedFile serializedGrammarFilename
于 2010-07-01T13:14:23.693 に答える
0

私が試した: java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \ -train trainFilesPath fileRange -saveToSerializedFile serializedGrammarFilename

しかし、私はエラーがありました:

エラー: メイン クラス edu.stanford.nlp.parser.lexparser.LexicalizedParser が見つからないか、読み込めませんでした

于 2015-11-10T13:13:19.907 に答える