Stanford POS tagger を使用して文章にタグを付けます。ドキュメントを文に分割してから、文をトークンに分割したいと考えています。初めてJavaを使用しているので、コマンドラインからタガーを実行したいだけです。
タガーを実行していると、出力が得られますが、「トークン化できません」という警告が表示されます。この警告はどういう意味ですか? トークン化はタガーによって暗黙のうちに行われませんか?
テキストを指定した文に分割するコマンドを実行しようとしましたが、機能しません。タガーは、パスを開けなかったというエラーを出します。
また、すべての出力がごちゃごちゃしないように、テキストファイルの数を入力し、それらの出力を対応するファイルに取得する方法を知りたいです。