python - マルチプロセッシングを使用したネストされた for ループ

Question

Python でのマルチプロセッシングに関して簡単な質問があります。

3 つのパラメーターでかなり大規模なグリッド検索を行っていますが、計算が完了するまでに約 14 時間かかります。マルチプロセッシングを使用して、この実行時間を短縮したいと考えています。

私のコードの非常に単純化された例は次のとおりです。

import numpy as np
import pickle
import time

a_range = np.arange(14, 18, 0.2)
b_range = np.arange(1000, 5000, 200)
c_range = np.arange(12, 21, .5)

a_position = range(len(a_range))
b_position = range(len(b_range))
c_position = range(len(c_range))

data_grid = np.zeros([len(a_range), len(b_range), len(c_range)])
record_data = []

start_time = time.time()

for (a,apos) in zip(a_range, a_position):
    for (b, bpos) in zip(b_range, b_position):
        for (c, cpos) in zip(c_range, c_position):
            example = a+b+c  #The math in my model is much more complex and takes
            #about 7-8 seconds to process
            data_grid[apos, bpos, cpos] = example
            record_data.append([a, b, c, example])

with open('Test_File', 'wb') as f: 
    pickle.dump(record_data, f) 

np.save('example_values', data_grid) 

print 'Code ran for ', round(time.time()-start_time,2), ' seconds'

今、私はマルチプロセッシングの経験がまったくないので、最初の試みは for ループを関数に変更してから、次のようにマルチプロセッシング関数を呼び出すことでした:

def run_model(a, b, c, apos, bpos, cpos):
    example=a+b+c  
    data_grid[apos, bpos, cpos]=example
    record_data.append([a, b, c, example])

from multiprocessing import Pool

if __name__=='__main__':
    pool=Pool(processes=4)
    pool.map(run_model, [a_range, b_range, c_range, a_position, b_positon, c_positon])
    pool.close()
    pool.join()

ただし、これは pool.map 呼び出しで失敗しました。この関数が反復可能な引数を 1 つしかとらないことは理解していますが、問題を解決する方法がわかりません。また、data_grid 変数が正しく入力されるかどうかについても懐疑的です。この関数から得たい結果は、保存された 2 つのファイルです。1 つはインデックスが a、b、c の値に対応する値の配列として、最後のファイルは a、b、c の値と結果の値を含むリストのリストです (例上記のコードで）

助けてくれてありがとう！

-意思

score 1 · Accepted Answer

これはマルチプロセッシングの問題を解決しませんが、プロセスを高速化する可能性があります。

ネストされたループを使用して nd 座標を構築し、それらを操作するパターンは、 ```numpy.meshgrid````を使用してベクトル化できます。実際の計算を知らなければ、このアプローチをテストすることはできません。

import numpy as np
a = np.array([0,1,2])
b = np.array([10,11,12])
c = np.array([20,21,22])

x, y, z = np.meshgrid(a,b,c)

>>> x
array([[[0, 0, 0],
        [1, 1, 1],
        [2, 2, 2]],

       [[0, 0, 0],
        [1, 1, 1],
        [2, 2, 2]],

       [[0, 0, 0],
        [1, 1, 1],
        [2, 2, 2]]])
>>> y
array([[[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]],

       [[11, 11, 11],
        [11, 11, 11],
        [11, 11, 11]],

       [[12, 12, 12],
        [12, 12, 12],
        [12, 12, 12]]])
>>> z
array([[[20, 21, 22],
        [20, 21, 22],
        [20, 21, 22]],

       [[20, 21, 22],
        [20, 21, 22],
        [20, 21, 22]],

       [[20, 21, 22],
        [20, 21, 22],
        [20, 21, 22]]])
>>> 



f = x + y + z

>>> f
array([[[30, 31, 32],
        [31, 32, 33],
        [32, 33, 34]],

       [[31, 32, 33],
        [32, 33, 34],
        [33, 34, 35]],

       [[32, 33, 34],
        [33, 34, 35],
        [34, 35, 36]]])
>>>

を使用して実際のポイントを作成し、単一のループを使用してポイントを反復処理するオプションもありますmeshgrid。結果を再形成する方法を理解できない限り、このアプローチでは空間情報が失われます。SO answer https://stackoverflow.com/a/18253506/2823755でこれを見つけました

points = np.vstack([x,y,z]).reshape(3, -1).T

>>> points
array([[ 0, 10, 20],
       [ 0, 10, 21],
       [ 0, 10, 22],
       [ 1, 10, 20],
       [ 1, 10, 21],
       [ 1, 10, 22],
       [ 2, 10, 20],
       [ 2, 10, 21],
       [ 2, 10, 22],
       [ 0, 11, 20],
       [ 0, 11, 21],
       [ 0, 11, 22],
       [ 1, 11, 20],
       [ 1, 11, 21],
       [ 1, 11, 22],
       [ 2, 11, 20],
       [ 2, 11, 21],
       [ 2, 11, 22],
       [ 0, 12, 20],
       [ 0, 12, 21],
       [ 0, 12, 22],
       [ 1, 12, 20],
       [ 1, 12, 21],
       [ 1, 12, 22],
       [ 2, 12, 20],
       [ 2, 12, 21],
       [ 2, 12, 22]])
>>>

関数を作成して適用できますpoints

def g(point):
    x, y, z = point
    return x + y + z

result = np.apply_along_axis(g, 1, points)

>>> result
array([30, 31, 32, 31, 32, 33, 32, 33, 34, 31, 32, 33, 32, 33, 34, 33, 34, 35, 32, 33, 34, 33, 34, 35, 34, 35, 36])
>>>

この例を再形成するのは簡単です:

>>> result.reshape(3,3,3)
array([[[30, 31, 32],
        [31, 32, 33],
        [32, 33, 34]],

       [[31, 32, 33],
        [32, 33, 34],
        [33, 34, 35]],

       [[32, 33, 34],
        [33, 34, 35],
        [34, 35, 36]]])
>>>

両方が同じであることを確認するためにテストします

>>> np.all(result.reshape(3,3,3) == f)
True
>>>

より複雑な計算については、ポイントを反復するだけです。

result = []
for point in points:
    example = some_maths
    result.append(example)

result = np.array(result).reshape(shape_of_the_3d_data)

python - マルチプロセッシングを使用したネストされた for ループ

2 に答える 2

Related

Reference