私は切実に必要です。共通言語に変換したコーパスがありますが、一部の単語が正しく英語に変換されていません。したがって、私のコーパスには などの非 ASCII 文字が含まれていU+00F8
ます。
私は Quanteda を使用しており、次のコードを使用してテキストをインポートしました。
EUCorpus <- corpus(textfile(file="/Users/RiohBurke/Documents/RStudio/PROJECT/*.txt"), encodingFrom = "UTF-8-BOM")
私のコーパスは 166 のドキュメントで構成されています。ドキュメントを R にインポートした後、これらの非 ASCII 文字を取り除く最善の方法は何でしょうか?