3

句読点を含む文脈自由文法 (CFG) を使用しています。例 nltk.parse_cfg("""PP-CLR -> IN `` NP-TTL""")

`` は有効な Penn Treebank POS タグです。しかし、nltk はそれを認識できません。実際、nltk.parse_cfg は英数字とダッシュ以外の文字を認識できません。Penn Treebank の POS タグには、 $ # : などの句読点がいくつかあります。(

では、句読点をデータセットに保持する必要がありますか? または、これらの文字を解析する方法はありますか?

ありがとう

4

2 に答える 2