私の他の質問に関連していますが、明確です:
someMap.saveAsTextFile("hdfs://HOST:PORT/out")
RDD を HDFS に保存する場合、spark に出力を gzip で圧縮するように指示するにはどうすればよいですか? Hadoop では、次の設定が可能です。
mapred.output.compress = true
で圧縮アルゴリズムを選択します
mapred.output.compression.codec = <<classname of compression codec>>
スパークでこれを行うにはどうすればよいですか?これも機能しますか?
編集:spark-0.7.2を使用