Linuxコマンドラインlz4を使用してcsvファイルを圧縮していました。
例:-
lz4入力.csv
出力としてinput.csv.lz4になります
しかし、次のコマンドを使用して Spark シェルで lz4 ファイルを読み込もうとすると、常に空の結果になります。
val 出力 = sparkSession.read.format("com.databricks.spark.csv").option("区切り文字", "\t").load("s3:///input.csv.lz4")
output.count res: ロング = 0
lz4コマンドラインツールがsparkと互換性がない可能性がある場所を見つけました
https://forums.databricks.com/questions/7957/how-can-i-read-in-lz4-compressed-json-files.html
誰かがスパークでlz4ファイルを読むことに取り組んでいますか? はいの場合、lz4 ファイルはどのように作成されましたか?