以下のコマンドを使用して、Spark 開発用の iPython ノートブックを作成しました。
ipython notebook --profile=pyspark
そして、sc
次のような Python コードを使用して SparkContext を作成しました。
import sys
import os
os.environ["YARN_CONF_DIR"] = "/etc/hadoop/conf"
sys.path.append("/opt/cloudera/parcels/CDH/lib/spark/python")
sys.path.append("/opt/cloudera/parcels/CDH/lib/spark/python/lib/py4j-0.8.1-src.zip")
from pyspark import SparkContext, SparkConf
from pyspark.sql import *
sconf = SparkConf()
conf = (SparkConf().setMaster("spark://701.datafireball.com:7077")
.setAppName("sparkapp1")
.set("spark.executor.memory", "6g"))
sc = SparkContext(conf=conf)
sqlContext = SQLContext(sc)
spark.executor.memory
ドキュメントの をよりよく理解したい
JVM メモリ文字列と同じ形式で、executor プロセスごとに使用するメモリの量
これは、1 つのノードで実行されているすべてのプロセスの累積メモリがその上限を超えないということですか? その場合、その数値をできるだけ高い数値に設定する必要がありますか?
これはいくつかのプロパティのリストでもあります。パフォーマンスを向上させるためにデフォルトから微調整できるパラメータが他にもあります。
ありがとう!