stanford-nlp - Stanford POS tagger でのトークン化はどのように行われますか?

Question

Stanford POS tagger を使用して文章にタグを付けます。ドキュメントを文に分割してから、文をトークンに分割したいと考えています。初めてJavaを使用しているので、コマンドラインからタガーを実行したいだけです。

タガーを実行していると、出力が得られますが、「トークン化できません」という警告が表示されます。この警告はどういう意味ですか? トークン化はタガーによって暗黙のうちに行われませんか?

テキストを指定した文に分割するコマンドを実行しようとしましたが、機能しません。タガーは、パスを開けなかったというエラーを出します。

また、すべての出力がごちゃごちゃしないように、テキストファイルの数を入力し、それらの出力を対応するファイルに取得する方法を知りたいです。

score 4 · Accepted Answer

はい、Stanford POS tagger には、テキストが既にトークン化されていると言わない限り、高品質で決定論的なトークナイザーが含まれています。正式な英語のテキストの場合、SMS やツイートなどには完全に適しているわけではありませんが、他のほとんどのトークナイザーよりも優れています。

トークン化できない警告は、入力に処理できないバイト/文字シーケンスがあることを意味します。

通常、これが実際に意味することは次のとおりです。タガーのデフォルトの文字エンコーディングは utf-8 (Unicode) ですが、ドキュメントは iso-8859-1 や Windows cp1252 などの 8 ビットエンコーディングなどの他のエンコーディングになっています。ドキュメントを変換するか、-encoding フラグを使用して入力ドキュメントのエンコーディングを指定できます。

しかし、それはまた、それが認識していない珍しい文字が入力に含まれていることを意味する場合もあります. 通常、そのような場合、それが時折のキャラクターである場合は、メッセージを無視することができます. キャラクターを削除するか、1キャラクタートークンにするかを選択できます。

現時点では、1 つのコマンドで一連のファイルに対して実行する機能はありません。ファイルごとに個別に実行するか、独自のコードを記述する必要があります。

stanford-nlp - Stanford POS tagger でのトークン化はどのように行われますか?

1 に答える 1

Related

Reference