r - RでQuantedaを使用しているときにテキストコーパスから非ASCII文字を削除する最良の方法は何ですか?

Question

私は切実に必要です。共通言語に変換したコーパスがありますが、一部の単語が正しく英語に変換されていません。したがって、私のコーパスにはなどの非 ASCII 文字が含まれていU+00F8ます。

私は Quanteda を使用しており、次のコードを使用してテキストをインポートしました。

 EUCorpus <- corpus(textfile(file="/Users/RiohBurke/Documents/RStudio/PROJECT/*.txt"), encodingFrom = "UTF-8-BOM")

私のコーパスは 166 のドキュメントで構成されています。ドキュメントを R にインポートした後、これらの非 ASCII 文字を取り除く最善の方法は何でしょうか?

score 4 · Accepted Answer

試す：

texts(EUCorpus) <- iconv(texts(EUCorpus), from = "UTF-8", to = "ASCII", sub = "")

これにより、エンコーディングが ASCII に変換され、翻訳不可能な文字 (0 ～ 127 の ASCII 範囲にないもの) が無に置き換えられます。

1 に答える 1