11

tm()R でいくつかの基本的なデータマイニングにandを使用しwordcloud()ていますが、データセットに英語以外の文字が含まれているため、問題が発生しています (バックグラウンド変数に基づいて他の言語を除外しようとしましたが.

TXT ファイル (TextWrangler で UTF-8 として保存) の一部の行が次のようになっているとします。

Special
satisfação
Happy
Sad
Potential für

次に、txt ファイルを R に読み込みます。

words <- Corpus(DirSource("~/temp", encoding = "UTF-8"),readerControl = list(language = "lat"))

これにより、次の警告メッセージが表示されます。

Warning message:
In readLines(y, encoding = x$Encoding) :
  incomplete final line found on '/temp/file.txt'

しかし、これはエラーではなく警告であるため、引き続き前進します。

words <- tm_map(words, stripWhitespace)
words <- tm_map(words, tolower)

これにより、次のエラーが発生します。

Error in FUN(X[[1L]], ...) : invalid input 'satisfa��o' in 'utf8towcs'

私は、TextWrangler または R のいずれかで英語以外の文字を除外する方法を見つけることにオープンです。最も都合の良いものは何でも。ご協力いただきありがとうございます!

4

2 に答える 2