問題はかなり奇妙です。圧縮されていないファイルを使用する場合、問題はありません。しかし、圧縮された bz2 ファイルを使用すると、インデックス範囲外エラーが発生します。
私が読んだことから、行末文字を検出せず、全体を巨大な行として読み取るのは明らかにspark-csvパーサーです。圧縮されていないcsvでは機能するが、.csv.bz2ファイルでは機能しないという事実は、私にとってかなり奇妙です。
また、私が言ったように、データフレーム ユニオンを実行するときにのみ発生します。スパークコンテキストでrddユニオンを実行しようとしましたが、同じエラーです。