0

多くの業界名を含む要素があります。それらを主要なカテゴリと業界に分解する必要があります。たとえば、回答者が好きなように応答できるようにしたため、レベルの数が膨大になりました (例: 金融サービス、金融サービス、銀行、金融)。これらのケースが一致しないため、追加のレベルとして出てくるので、forcats でそれらを折りたたもうとしています:

test <- fct_collapse(PrescreenF$Industry, Finance = c("Banking",
  "Corporate Finance", "Finance", "Financial", "financial services",
  "financial services", "Financial Services", "Financial services"),
  NULL = "H")

「金融サービス」が不明であるという警告が表示されます。ベクトルを呼び出すと、ベクトルが存在することがわかるので、これは非常にイライラします。呼び出しから正確な単語をコピーして貼り付け、書き直そうとしましたが、変更を妨げる隠し文字があるようです。

これらの値を適切に折りたたむにはどうすればよいですか?

-> test$industry
Banking
Corporate Finance 
Finance Financial 
financial services
financial services 
Financial Services 
Financial services

「再評価」、たとえば最後のレベル「金融サービス」に行くと、不明な文字列であることがわかります。

dput(x$industry) のEDIT出力

structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 3L, 3L, 3L, 
4L, 3L, 3L, 3L, 5L, 7L, 8L, 9L, 10L, 11L, 12L, 12L, 13L, 14L, 
15L, 15L, 15L, 15L, 15L, 15L, 15L, 15L, 15L, 16L, 16L, 16L, 16L, 
16L, 16L, 16L, 16L, 16L, 16L, 16L, 16L, 16L, 16L, 16L, 16L, 16L, 
16L, 16L, 16L, 16L, 16L, 16L, 16L, 16L, 16L, 17L, 18L, 18L, 18L, 
18L, 19L, 19L, 20L, 21L, 22L, 23L, 24L, 25L, 25L, 26L, 27L, 28L
), .Label = c("", "{\"ImportId\":\"QID8_TEXT\"}", "Finance", 
"Financial ", "Financial services ", "Please indicate the industry you work in (e.g. technology, healthcare etc):", 
"Cleantech", "Delivery", "e-commerce/fashion", "Food", "Food & Bev", 
"Retail", "Service", "tech", "technology", "Technology", "IT, technology", 
"Software", "Technology ", "Tehcnology", "Consulting", "Digital advertising", 
"Education", "Higher education", "Technology, management consulting", 
"University professor; teaching, research and service", "Information Technology and Services", 
"mobile technology"), class = "factor")

編集それを理解しました。一部の用語には、終了後に余分なスペースがありました。たとえば、Prescreen$Industry を呼び出すと、「Banking」や「Corporate Finance」などの名前が多数返されますが、レベルの後にスペースがあることはわかりませんでした。バンキングは実際には.. R には表示されなかった、目に見えないスペースを持つ「バンキング」です。

列内で len 関数を実行できますか? もしそうなら、それはどのように機能しますか?PrescreenF$Industry("Banking")?

4

1 に答える 1