スタンフォードの品詞タガーへの入力として、事前にトークン化されたテキストがあります。括弧や引用符を正しくタグ付けできません。Stanford Tagger のデフォルトのトークン化はしたくないので、-tokenize false
オプションを使用して無効にしました。
スタンドアロンの Stanford Parserでサポートされている括弧をandに変換するなど、トークン化中に がescape characters
行う方法を知っています。Penn Treebank
-LRB-
-RRB-
スタンフォードの品詞タガーでうまく処理する方法はありますか?