最近、取り込み対象のファイルを受け取りました。ファイルは PSV 形式ですが、すべてのフィールドの左右に余分な文字 $~$ が埋め込まれているため、PSV 全体は次のようになります。
$~$Field1$~$|$~$Field2$~$|$~$Field3$~$
$~$Data1$~$|$~$Data2$~$|$~$Data3$~$
$~$Data4$~$|$~$Data5$~$|$~$Data6$~$
$~$Data7$~$|$~$Data8$~$|$~$Data9$~$
$~$Data10$~$|$~$Data11$~$|$~$Data12$~$ .....
ファイルには 1 億行あります。
これらのパディングをトリミングして標準の PSV にする最良の方法は何でしょうか?
どうもありがとうございました。ここで提案/共有を歓迎します。
アップデート:
データは SFTP から受信され、IT データ サポート (Unix 管理者) によって Hadoop にアップロードされます。Hadoop クラスターにしかアクセスできませんが、データ サポートにとって簡単な仕事であれば、前処理を行うように説得できるかもしれません。ありがとう。