r - tm() を使用して R のコーパスから英語以外のテキストを削除する

翻译自：https://stackoverflow.com/questions/18153504 2013-08-09T18:41:38.950

29562 次

tm()R でいくつかの基本的なデータマイニングにandを使用しwordcloud()ていますが、データセットに英語以外の文字が含まれているため、問題が発生しています (バックグラウンド変数に基づいて他の言語を除外しようとしましたが.

TXT ファイル (TextWrangler で UTF-8 として保存) の一部の行が次のようになっているとします。

Special
satisfação
Happy
Sad
Potential für

次に、txt ファイルを R に読み込みます。

words <- Corpus(DirSource("~/temp", encoding = "UTF-8"),readerControl = list(language = "lat"))

これにより、次の警告メッセージが表示されます。

Warning message:
In readLines(y, encoding = x$Encoding) :
  incomplete final line found on '/temp/file.txt'

しかし、これはエラーではなく警告であるため、引き続き前進します。

words <- tm_map(words, stripWhitespace)
words <- tm_map(words, tolower)

これにより、次のエラーが発生します。

Error in FUN(X[[1L]], ...) : invalid input 'satisfa��o' in 'utf8towcs'

私は、TextWrangler または R のいずれかで英語以外の文字を除外する方法を見つけることにオープンです。最も都合の良いものは何でも。ご協力いただきありがとうございます！

2 に答える 2