R を使用して、古い名声データベースからデータを読み取ります。これは一般的には問題なく動作しますが、説明を読むと予期しないエンコーディングが返されます。例えば:
a <- "\U3e34653c"
# is supposed to be
"ä"
私はiconv
この問題を回避しようとしましたが、多くの可能性を試したにもかかわらず、適切な方法で表示することができませんでした. 私のロケール: en_US.UTF-8. そのような文字列を (サブ) 置換する方法はありますか?
別のエンコーディング文字列でファイルを開いてみませんか? Ricardo が提案するように、おそらく Latin1? そうでない場合は、他のエキゾチックなフレーバーがあります。
f <- file( "myfile.db" , encoding = "Latin-1" )
dat <- readLines( f )
いくつかのデータにリンクできますか?
SQL Server から (ODBC および RODBC パッケージを介して) データを抽出するときに、同じ問題が発生しました。すべての文字列を Unicode として扱うように ODBC ドライバーの設定を変更することで解決しました。
より具体的には、SQL Server 用の Actual Technologies ODBC ドライバーを使用しており、[高度な言語設定] で [テキスト タイプを Unicode として扱う] を指定し、[マルチバイト テキスト エンコーディング] オプションを UTF-8 に設定できます。