0

文章からタグを削除することはできますか? ファイルをスキャンしてタグを見つけて削除することでそれを達成できますが、多くのタグがあるため (一部のモデルには 30 以上のタグがあり、一部のモデルには約 48 ~ 50 のタグがあり、基本的にpenn treebank の pos タグに従います)、速い方法はありますか?より効率的な方法でタグを削除する甘い方法はありますか? APIを確認しましたが、タグを削除する方法はありませんでした。

4

1 に答える 1

1

このために組み込まれている特別なものは何もありませんが、出力には単語とそのタグの両方が含まれているため、元のドキュメントを再度スキャンする必要がある理由がわかりません。最後の tagSeparator 文字 (「/」など) から空白まで削除して、タグを削除することはできませんか? または、使用する方が簡単かもしれません

-outputFormat tsv

次に、最初の列に単語、2 番目の列にタグを含む 2 列の出力が得られ、完了したら最初の列を保持することができます。

于 2012-03-17T00:30:06.120 に答える