次のコードを使用して、データ フレームを整然としたデータ フレームに変換しています。
replace_reg <- "https://t.co/[A-Za-z\\d]+|http://[A-Za-z\\d]+|&|<|>|RT|https"
unnest_reg <- "([^A-Za-z_\\d#@']|'(?![A-Za-z_\\d#@]))"
tidy_tweets <- tweets %>%
filter(!str_detect(text, "^RT")) %>%
mutate(text = str_replace_all(text, replace_reg, "")) %>%
unnest_tokens(word, text, token = "regex", pattern = unnest_reg) %>%
filter(!word %in% custom_stop_words2$word,
str_detect(word, "[a-zäöüß]"))
ただし、これにより、ドイツ語の文字 üäöß が新しく作成された単語列から削除された整然としたデータ フレームが生成されます。たとえば、「wählen」は「w」と「hlen」の 2 つの単語になり、特殊文字が削除されます。
テキスト分析と用語の頻度を行うために、ドイツ語の単語の整頓されたデータフレームを取得しようとしています。
この問題にアプローチする方法について、誰かが私を正しい方向に向けることができますか?