2

pySpark を使用して寄木細工のファイルを作成します。そのファイルの hdfs ブロック サイズを変更したいと思います。私はこのようにブロックサイズを設定しましたが、うまくいきません:

sc._jsc.hadoopConfiguration().set("dfs.block.size", "128m")

これは、pySpark ジョブを開始する前に設定する必要がありますか? もしそうなら、それを行う方法。

4

2 に答える 2

1

SparkContextsc._jsc.hadoopConfiguration()で設定してみてください

from pyspark import SparkConf, SparkContext 
conf = (SparkConf().setMaster("yarn")) 
sc = SparkContext(conf = conf)
sc._jsc.hadoopConfiguration().set("dfs.block.size", "128m")
txt = sc.parallelize(("Hello", "world", "!"))
txt.saveAsTextFile("hdfs/output/path") #saving output with 128MB block size

スカラで:

sc.hadoopConfiguration.set("dfs.block.size", "128m")
于 2016-12-04T13:26:06.673 に答える