scala - Sparkでデータフレームにロードするときにフィールドをトリミングする方法は?

翻译自：https://stackoverflow.com/questions/54585348 2019-02-08T02:42:51.153

668 次

最近、取り込み対象のファイルを受け取りました。ファイルは PSV 形式ですが、すべてのフィールドの左右に余分な文字 $~$ が埋め込まれているため、PSV 全体は次のようになります。

$~$Field1$~$|$~$Field2$~$|$~$Field3$~$

$~$Data1$~$|$~$Data2$~$|$~$Data3$~$

$~$Data4$~$|$~$Data5$~$|$~$Data6$~$

$~$Data7$~$|$~$Data8$~$|$~$Data9$~$

$~$Data10$~$|$~$Data11$~$|$~$Data12$~$ .....

ファイルには 1 億行あります。

これらのパディングをトリミングして標準の PSV にする最良の方法は何でしょうか?

どうもありがとうございました。ここで提案/共有を歓迎します。

アップデート：

データは SFTP から受信され、IT データサポート (Unix 管理者) によって Hadoop にアップロードされます。Hadoop クラスターにしかアクセスできませんが、データサポートにとって簡単な仕事であれば、前処理を行うように説得できるかもしれません。ありがとう。

scala - Sparkでデータフレームにロードするときにフィールドをトリミングする方法は?

3 に答える 3

Related

Reference