句読点を含む文脈自由文法 (CFG) を使用しています。例 nltk.parse_cfg("""PP-CLR -> IN `` NP-TTL""")
`` は有効な Penn Treebank POS タグです。しかし、nltk はそれを認識できません。実際、nltk.parse_cfg は英数字とダッシュ以外の文字を認識できません。Penn Treebank の POS タグには、 $ # : などの句読点がいくつかあります。(
では、句読点をデータセットに保持する必要がありますか? または、これらの文字を解析する方法はありますか?
ありがとう