5

PySpark で、numpy 配列をワーカー マシン (関数) との間で効率的に HDFS に保存/読み取りたいと考えています。A と B の 2 台のマシンがあります。A にはマスターとワーカーがあります。B には 1 人のワーカーがいます。たとえば、次のようなことを達成したいと思います。

if __name__ == "__main__":
    conf = SparkConf().setMaster("local").setAppName("Test")
    sc = SparkContext(conf = conf)
    sc.parallelize([0,1,2,3], 2).foreachPartition(func)

def func(iterator):
    P = << LOAD from HDFS or Shared Memory as numpy array>>
    for x in iterator:
        P = P + x

    << SAVE P (numpy array) to HDFS/ shared file system >>

これを行うための迅速で効率的な方法は何ですか?

4

1 に答える 1