0
4

2 に答える 2

0

上記のように、おそらく使用する方が良いでしょう

content(GET(url), as="parsed", encoding="UTF-8")

これはhttr、コンテンツをデコードするパッケージの機能を利用します。

<U+2800>出力に表示された場合、それはそれらの正確な文字が文字列に表示されることを意味するものではないことに注意してください。これは、R が Unicode 文字をエスケープする方法であり、\r. ロケール設定の場合、これらの文字が表示されます。使用しているOSについては言及していません。Mac はデフォルトで UTF-8 を使用し、それらの文字を表示しようとします。デフォルトが何であるかをテストするためのWindowsマシンにアクセスできません。ロケール「LC_ALL」が「C」に設定されている場合、「」と表示されるようです。これは戻ります

Sys.getlocale()
# [1] "C/C/C/C/C/en_US.UTF-8"

x <- "\u2800\u2800\u2800Jenny";
print(x)
# [1] "<U+2800><U+2800><U+2800>Jenny"

そのため、実際には文字列に小なり/大なり記号や大文字の U はありません。これは、Cエンコーディングがそれらを表示する方法です。非ASCII文字を削除したい場合は、次のことができます

iconv(x, from="UTF-8", to="ASCII", sub="")
# [1] "Jenny"

Excel は他のタイプのエンコーディングを処理できる可能性が非常に高いですが、それがどのように管理されているかは個人的にはわかりませんXLConnect

于 2014-08-16T06:10:49.073 に答える