Pool.mapアプローチはあまり意味がないとおっしゃっていたと思います。マップは、作業のソースを提供する簡単な方法であり、各アイテムに適用するための呼び出し可能です。マップのfunc
forは、指定された引数で実際の作業を行うための任意のエントリポイントにすることができます。
それがあなたにとって正しくないと思われる場合は、生産者/消費者パターンの使用について、ここにかなり詳細な回答があります:https ://stackoverflow.com/a/11196615/496445
基本的に、キューを作成し、N個のワーカーを開始します。次に、メインスレッドからキューにフィードするか、キューにフィードするProducerプロセスを作成します。ワーカーはキューから作業を継続するだけであり、開始したプロセスの数よりも多くの同時作業が発生することはありません。
プロデューサーが消費する速度とリソースにも制約を課す必要がある場合は、キューに制限を設定して、未処理の作業が既に多すぎる場合にプロデューサーをブロックするオプションもあります。
呼び出される仕事関数は、あなたが望むことを何でもすることができます。これは、システムコマンドのラッパーにすることも、Pythonlibをインポートしてメインルーチンを実行することもできます。限られたリソースの下で任意の実行可能ファイルを実行するように構成を設定できる特定のプロセス管理システムがありますが、これはそれを実行するための基本的なPythonアプローチにすぎません。
私の他の答えからの抜粋:
基本プール:
from multiprocessing import Pool
def do_work(val):
# could instantiate some other library class,
# call out to the file system,
# or do something simple right here.
return "FOO: %s" % val
pool = Pool(4)
work = get_work_args()
results = pool.map(do_work, work)
プロセスマネージャーとプロデューサーを使用する
from multiprocessing import Process, Manager
import time
import itertools
def do_work(in_queue, out_list):
while True:
item = in_queue.get()
# exit signal
if item == None:
return
# fake work
time.sleep(.5)
result = item
out_list.append(result)
if __name__ == "__main__":
num_workers = 4
manager = Manager()
results = manager.list()
work = manager.Queue(num_workers)
# start for workers
pool = []
for i in xrange(num_workers):
p = Process(target=do_work, args=(work, results))
p.start()
pool.append(p)
# produce data
# this could also be started in a producer process
# instead of blocking
iters = itertools.chain(get_work_args(), (None,)*num_workers)
for item in iters:
work.put(item)
for p in pool:
p.join()
print results