5

私は切実に必要です。共通言語に変換したコーパスがありますが、一部の単語が正しく英語に変換されていません。したがって、私のコーパスには などの非 ASCII 文字が含まれていU+00F8ます。

私は Quanteda を使用しており、次のコードを使用してテキストをインポートしました。

 EUCorpus <- corpus(textfile(file="/Users/RiohBurke/Documents/RStudio/PROJECT/*.txt"), encodingFrom = "UTF-8-BOM")

私のコーパスは 166 のドキュメントで構成されています。ドキュメントを R にインポートした後、これらの非 ASCII 文字を取り除く最善の方法は何でしょうか?

4

1 に答える 1

4

試す:

texts(EUCorpus) <- iconv(texts(EUCorpus), from = "UTF-8", to = "ASCII", sub = "")

これにより、エンコーディングが ASCII に変換され、翻訳不可能な文字 (0 ~ 127 の ASCII 範囲にないもの) が無に置き換えられます。

于 2016-07-04T12:31:13.607 に答える