pySpark を使用して寄木細工のファイルを作成します。そのファイルの hdfs ブロック サイズを変更したいと思います。私はこのようにブロックサイズを設定しましたが、うまくいきません:
sc._jsc.hadoopConfiguration().set("dfs.block.size", "128m")
これは、pySpark ジョブを開始する前に設定する必要がありますか? もしそうなら、それを行う方法。
pySpark を使用して寄木細工のファイルを作成します。そのファイルの hdfs ブロック サイズを変更したいと思います。私はこのようにブロックサイズを設定しましたが、うまくいきません:
sc._jsc.hadoopConfiguration().set("dfs.block.size", "128m")
これは、pySpark ジョブを開始する前に設定する必要がありますか? もしそうなら、それを行う方法。
SparkContextsc._jsc.hadoopConfiguration()
で設定してみてください
from pyspark import SparkConf, SparkContext
conf = (SparkConf().setMaster("yarn"))
sc = SparkContext(conf = conf)
sc._jsc.hadoopConfiguration().set("dfs.block.size", "128m")
txt = sc.parallelize(("Hello", "world", "!"))
txt.saveAsTextFile("hdfs/output/path") #saving output with 128MB block size
スカラで:
sc.hadoopConfiguration.set("dfs.block.size", "128m")