r - 特殊文字を単語頻度マトリックスに保持する

翻译自：https://stackoverflow.com/questions/53360064 2018-11-18T10:52:30.920

44 次

いくつかのブランドをテキストで分析して、広告認知度などの KPI を見つけます。ただし、これまでのところ、特殊文字を含むブランドは私のコードによって破壊されています。

library(qdap)
library(stringr)
test <- c("H&M", "C&A", "Zalando", "Zalando", "Amazon", "Sportscheck")

wfm(test)

これは出力です：

            all
a             1
amazon        1
c             1
h             1
m             1
sportscheck   1
zalando       2

H&M が h&m であり、2 つのブランドのように「h」と「m」ではないことを確認するパッケージまたは方法はありますか?

編集: wfm 関数には ... 引数があり、strip 関数を使用できるようにする必要があります。

wfm(test, ... = strip(test, char.keep = "&"))

残念ながら機能しません。

2 に答える 2