distributed-computing - dispy を使用して重いタスクを他のノードに確実に分散するにはどうすればよいですか?

Question

私は現在、タスクをさまざまなノードに「分散」するdispy を使用して、10 個の乱数の階乗の計算を実行しています。ただし、計算の 1 つが大きな数の階乗である場合、たとえばfactorial(100)とします。そのタスクに非常に長い時間がかかる場合でも、dispy は単一のノードでのみ実行します。

dispy がこのタスクを分解して他のノードに分散し、それほど時間がかからないようにするにはどうすればよいですか?

これまでに私が思いついたコードは次のとおりです。ここでは、10 個の乱数の階乗が計算され、5 番目の計算は常に factorial(100) です:-

# 'compute' is distributed to each node running 'dispynode'

def compute(n):
    import time, socket
    ans = 1
    for i in range(1,n+1):
        ans = ans * i
    time.sleep(n)
    host = socket.gethostname()
    return (host, n,ans)

if __name__ == '__main__':
    import dispy, random
    cluster = dispy.JobCluster(compute)
    jobs = []
    for i in range(10):
        # schedule execution of 'compute' on a node (running 'dispynode')
        # with a parameter (random number in this case)
        if(i==5):
            job = cluster.submit(100)    
        else:
            job = cluster.submit(random.randint(5,20))
        job.id = i # optionally associate an ID to job (if needed later)
        jobs.append(job)
    # cluster.wait() # waits for all scheduled jobs to finish
    for job in jobs:
        host, n, ans = job() # waits for job to finish and returns results
        print('%s executed job %s at %s with %s as input and %s as output' % (host, job.id, job.start_time, n,ans))
        # other fields of 'job' that may be useful:
        # print(job.stdout, job.stderr, job.exception, job.ip_addr, job.start_time, job.end_time)
    cluster.print_status()

score 0 · Accepted Answer

Dispy は、定義したとおりにタスクを分散します。タスクをより細かくするわけではありません。

最初にタスクを細分化するための独自のロジックを作成できます。おそらく、階乗の場合はかなり簡単です。ただし、あなたの場合、パフォーマンスの問題は次の行によるものかどうか疑問に思います:

time.sleep(n)

factorial(100) の場合、なぜ 100 秒スリープする必要があるのですか?

distributed-computing - dispy を使用して重いタスクを他のノードに確実に分散するにはどうすればよいですか?

1 に答える 1

Related

Reference