scala - bzip2 csv データでデータフレームユニオンを実行すると、範囲外のインデックスエラーが発生する

翻译自：https://stackoverflow.com/questions/40075168 2016-10-16T20:36:52.030

248 次

問題はかなり奇妙です。圧縮されていないファイルを使用する場合、問題はありません。しかし、圧縮された bz2 ファイルを使用すると、インデックス範囲外エラーが発生します。

私が読んだことから、行末文字を検出せず、全体を巨大な行として読み取るのは明らかにspark-csvパーサーです。圧縮されていないcsvでは機能するが、.csv.bz2ファイルでは機能しないという事実は、私にとってかなり奇妙です。

また、私が言ったように、データフレームユニオンを実行するときにのみ発生します。スパークコンテキストでrddユニオンを実行しようとしましたが、同じエラーです。

scala - bzip2 csv データでデータフレーム ユニオンを実行すると、範囲外のインデックス エラーが発生する