22

私の他の質問に関連していますが、明確です:

someMap.saveAsTextFile("hdfs://HOST:PORT/out")

RDD を HDFS に保存する場合、spark に出力を gzip で圧縮するように指示するにはどうすればよいですか? Hadoop では、次の設定が可能です。

mapred.output.compress = true

で圧縮アルゴリズムを選択します

mapred.output.compression.codec = <<classname of compression codec>>

スパークでこれを行うにはどうすればよいですか?これも機能しますか?

編集:spark-0.7.2を使用

4

4 に答える 4

1

新しい Spark リリースの場合は、spark-defaults.xml ファイルで次の操作を行ってください。(mapred廃止されました)。

<property>
    <name>mapreduce.output.fileoutputformat.compress</name>
    <value>true</value>
</property>
<property>
    <name>mapreduce.output.fileoutputformat.compress.codec</name>
    <value>GzipCodec</value>
</property>
<property>
    <name>mapreduce.output.fileoutputformat.compress.type</name>
    <value>BLOCK</value>
</property>
于 2016-08-18T21:21:37.257 に答える