4

ファイル名が で終わらず.gz、他のプログラムと共有されているため、元に戻すことができません。

file1.log.gz.processed単なるcsvファイルです。しかし、どうすればpyspark、できれば で読むことができpyspark.sqlますか?

形式と圧縮を指定しようとしましたが、正しいキー/値が見つかりませんでした。例えば、

sqlContext.load(fn, format='gz')

うまくいきませんでした。Spark はファイルを扱うことができましたがgz、ファイル名からコーデックを判別しているようです。例えば、

sc.textFile(fn)

ファイルがで終わる場合は機能しますが.gz、私の場合はそうではありません。

正しいコーデックを使用するように Spark に指示するにはどうすればよいですか? ありがとうございました!

4

1 に答える 1