ファイル名が で終わらず.gz、他のプログラムと共有されているため、元に戻すことができません。
file1.log.gz.processed単なるcsvファイルです。しかし、どうすればpyspark、できれば で読むことができpyspark.sqlますか?
形式と圧縮を指定しようとしましたが、正しいキー/値が見つかりませんでした。例えば、
sqlContext.load(fn, format='gz')
うまくいきませんでした。Spark はファイルを扱うことができましたがgz、ファイル名からコーデックを判別しているようです。例えば、
sc.textFile(fn)
ファイルがで終わる場合は機能しますが.gz、私の場合はそうではありません。
正しいコーデックを使用するように Spark に指示するにはどうすればよいですか? ありがとうございました!