apache-spark - gzip圧縮されたcsvファイルをpysparkにロードするにはどうすればよいですか?

翻译自：https://stackoverflow.com/questions/34131092 2015-12-07T10:15:08.117

9662 次

4

ファイル名がで終わらず.gz、他のプログラムと共有されているため、元に戻すことができません。

file1.log.gz.processed単なるcsvファイルです。しかし、どうすればpyspark、できればで読むことができpyspark.sqlますか?

形式と圧縮を指定しようとしましたが、正しいキー/値が見つかりませんでした。例えば、

sqlContext.load(fn, format='gz')

うまくいきませんでした。Spark はファイルを扱うことができましたがgz、ファイル名からコーデックを判別しているようです。例えば、

sc.textFile(fn)

ファイルがで終わる場合は機能しますが.gz、私の場合はそうではありません。

正しいコーデックを使用するように Spark に指示するにはどうすればよいですか? ありがとうございました！

1 に答える 1