EBCDIC としてエンコードされたメインフレーム データを R に読み込もうとしていますが、途方に暮れています。私は企業環境で作業しているため、外部プログラムを使用してファイルを変換することは避けたいと考えています。
サンプル ファイルは、ASCII バージョンと EBCDIC バージョンの両方でここにあります。ファイルの EBCDIC バージョンには改行がないことに注意してください。代わりに、各行の幅を手動で指定します。R には、私の環境で利用可能な IBM500 エンコーディングがあり、これらのファイルには正しいものであるはずです。
ただし、次のコマンドを実行すると、R が完全に失敗するようです。
layout <- read.fwf("EBCDIC_LAYOUT", widths = c(80), fileEncoding='ibm500')
data <- read.fwf("EBCDIC_ZIPCODE", widths = c(32), fileEncoding='ibm500')
ここからどこへ行けばいいですか?
関連 -- 私が使用すると予想されるファイルのいくつかは、かなり大きくなります (1 GB 程度)。できれば、適度にスケーリングできるソリューションが必要です。(LaF などのパッケージを試しましたが、エンコーディングを選択するオプションがありません。)
どうもありがとうございました!