scala - Spark スタンドアロンモード: HDFS に書き込まれた Spark 出力を圧縮する方法

Question

私の他の質問に関連していますが、明確です：

someMap.saveAsTextFile("hdfs://HOST:PORT/out")

RDD を HDFS に保存する場合、spark に出力を gzip で圧縮するように指示するにはどうすればよいですか? Hadoop では、次の設定が可能です。

mapred.output.compress = true

で圧縮アルゴリズムを選択します

mapred.output.compression.codec = <<classname of compression codec>>

スパークでこれを行うにはどうすればよいですか？これも機能しますか？

編集：spark-0.7.2を使用

score 1 · Accepted Answer

新しい Spark リリースの場合は、spark-defaults.xml ファイルで次の操作を行ってください。（mapred廃止されました）。

<property>
    <name>mapreduce.output.fileoutputformat.compress</name>
    <value>true</value>
</property>
<property>
    <name>mapreduce.output.fileoutputformat.compress.codec</name>
    <value>GzipCodec</value>
</property>
<property>
    <name>mapreduce.output.fileoutputformat.compress.type</name>
    <value>BLOCK</value>
</property>

scala - Spark スタンドアロン モード: HDFS に書き込まれた Spark 出力を圧縮する方法

4 に答える 4

Related

Reference

scala - Spark スタンドアロンモード: HDFS に書き込まれた Spark 出力を圧縮する方法