hadoop - pysparkでhdfsブロックサイズを変更するには?

Question

pySpark を使用して寄木細工のファイルを作成します。そのファイルの hdfs ブロックサイズを変更したいと思います。私はこのようにブロックサイズを設定しましたが、うまくいきません:

sc._jsc.hadoopConfiguration().set("dfs.block.size", "128m")

これは、pySpark ジョブを開始する前に設定する必要がありますか? もしそうなら、それを行う方法。

score 1 · Accepted Answer

SparkContextsc._jsc.hadoopConfiguration()で設定してみてください

from pyspark import SparkConf, SparkContext 
conf = (SparkConf().setMaster("yarn")) 
sc = SparkContext(conf = conf)
sc._jsc.hadoopConfiguration().set("dfs.block.size", "128m")
txt = sc.parallelize(("Hello", "world", "!"))
txt.saveAsTextFile("hdfs/output/path") #saving output with 128MB block size

スカラで：

sc.hadoopConfiguration.set("dfs.block.size", "128m")

hadoop - pysparkでhdfsブロックサイズを変更するには?

2 に答える 2

Related

Reference