0

最近、取り込み対象のファイルを受け取りました。ファイルは PSV 形式ですが、すべてのフィールドの左右に余分な文字 $~$ が埋め込まれているため、PSV 全体は次のようになります。

$~$Field1$~$|$~$Field2$~$|$~$Field3$~$

$~$Data1$~$|$~$Data2$~$|$~$Data3$~$

$~$Data4$~$|$~$Data5$~$|$~$Data6$~$

$~$Data7$~$|$~$Data8$~$|$~$Data9$~$

$~$Data10$~$|$~$Data11$~$|$~$Data12$~$ .....

ファイルには 1 億行あります。

これらのパディングをトリミングして標準の PSV にする最良の方法は何でしょうか?

どうもありがとうございました。ここで提案/共有を歓迎します。

アップデート:

データは SFTP から受信され、IT データ サポート (Unix 管理者) によって Hadoop にアップロードされます。Hadoop クラスターにしかアクセスできませんが、データ サポートにとって簡単な仕事であれば、前処理を行うように説得できるかもしれません。ありがとう。

4

3 に答える 3