PySpark で、numpy 配列をワーカー マシン (関数) との間で効率的に HDFS に保存/読み取りたいと考えています。A と B の 2 台のマシンがあります。A にはマスターとワーカーがあります。B には 1 人のワーカーがいます。たとえば、次のようなことを達成したいと思います。
if __name__ == "__main__":
conf = SparkConf().setMaster("local").setAppName("Test")
sc = SparkContext(conf = conf)
sc.parallelize([0,1,2,3], 2).foreachPartition(func)
def func(iterator):
P = << LOAD from HDFS or Shared Memory as numpy array>>
for x in iterator:
P = P + x
<< SAVE P (numpy array) to HDFS/ shared file system >>
これを行うための迅速で効率的な方法は何ですか?