私は略記や地元の専門用語がたくさんある非公式の英語のテキストを分析しなければなりません。そのため、スタンフォード タガーのモデルを作成することを考えていました。
スタンフォード タガーのトレーニング用に独自のラベル付きコーパスのセットを作成するにはどうすればよいですか?
コーパスの構文と、望ましいパフォーマンスを達成するためにコーパスの長さはどのくらいですか?
私は略記や地元の専門用語がたくさんある非公式の英語のテキストを分析しなければなりません。そのため、スタンフォード タガーのモデルを作成することを考えていました。
スタンフォード タガーのトレーニング用に独自のラベル付きコーパスのセットを作成するにはどうすればよいですか?
コーパスの構文と、望ましいパフォーマンスを達成するためにコーパスの長さはどのくらいですか?
PoS タガーをトレーニングするには、MaxentTagger クラスの JavaDocsにも含まれているこのメーリング リストの投稿を参照してください。
edu.stanford.nlp.tagger.maxent.Train クラスのjavadocでは、トレーニング形式が指定されています。
トレーニング ファイルは次の形式である必要があります: スペースまたはタブで区切られた行ごとに 1 つの単語と 1 つのタグ。各文は EOS 単語タグのペアで終了する必要があります。(実際、今でもそうであるかどうかは完全にはわかりませんが、おそらく害はないでしょう。-wmorgan)
For the Stanford Parser, you use Penn treebank format, and see Stanford's FAQ about the exact commands to use. The JavaDocs for the LexicalizedParser class also give appropriate commands, particularly:
java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \
-train trainFilesPath fileRange
-saveToSerializedFile serializedGrammarFilename
私が試した: java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \ -train trainFilesPath fileRange -saveToSerializedFile serializedGrammarFilename
しかし、私はエラーがありました:
エラー: メイン クラス edu.stanford.nlp.parser.lexparser.LexicalizedParser が見つからないか、読み込めませんでした