ファイル名が で終わらず.gz
、他のプログラムと共有されているため、元に戻すことができません。
file1.log.gz.processed
単なるcsv
ファイルです。しかし、どうすればpyspark
、できれば で読むことができpyspark.sql
ますか?
形式と圧縮を指定しようとしましたが、正しいキー/値が見つかりませんでした。例えば、
sqlContext.load(fn, format='gz')
うまくいきませんでした。Spark はファイルを扱うことができましたがgz
、ファイル名からコーデックを判別しているようです。例えば、
sc.textFile(fn)
ファイルがで終わる場合は機能しますが.gz
、私の場合はそうではありません。
正しいコーデックを使用するように Spark に指示するにはどうすればよいですか? ありがとうございました!