0

私は、人々が単に句読点として山括弧を使用しているデータセットを解析していますが、実際のマークアップは決して (決して) 発生しません。

を呼び出す代わりにパーサーの機能を変更する手段はありますか?

"<snickers in background>" 

単一のトークン、取得できます

"<", "snickers", etc? 

かなり単純な問題のように思えますが、ドキュメントやコードを調べても簡単な修正を見つけることができませんでした。

前もって感謝します!

PS このように振る舞う、私が知っておくべき他のキャラクターはいますか?

4

1 に答える 1

0

いいえ、これを行う簡単な方法はありません。トークナイザーでの引用符、ダッシュ、ブラケットエスケープの処理をカスタマイズするためのオプションがいくつかありますが、全体として、トークナイザーには多くのヒューリスティックルールがあり、そのほとんどはコマンドラインで変更できません。

主なオプションは2つあります。

  • TokenizerとTokenizerFactoryの独自の実装を作成し、デフォルトのPTBTokenizerの代わりに使用するように要求し、コマンドラインフラグで要求します。-tokenizerFactory
  • 解析の前​​に入力をトークン化し、フラグを付けます-tokenized

もちろん、通常のトークンがPenn Treebankの規則で期待されているようにトークン化されない限り、解析の精度が低下する傾向があります。

于 2011-08-20T16:06:00.390 に答える