金融記事のセンチメント分析を行っています。単純ベイズ分類器の精度を高めるために、否定処理を実装したいと考えています。
具体的には、「not」または「n't」に続く単語に接頭辞「not_」を追加したい
したがって、私のコーパスに次のようなものがある場合:
x <- "They didn't sell the company."
私は以下を取得したい:
"they didn't not_sell the company."
(「しなかった」というストップワードは後で削除されます)
関数のみを見つけることができましgsub()
たが、このタスクでは機能しないようです。
どんな助けでも大歓迎です!! ありがとうございました!