1

次の python スクリプトがあり、既存の pandas データフレームを使用して dask データフレームを作成します。私の関数は純粋な python を使用しているため、マルチプロセッシング スケジューラを使用しています。スケジューラは 8 つのプロセス (パーティションごとに 1 つ) を作成しますが、それらは一度に 1 つずつ順番に実行されます。

dask_data = ddf.from_pandas(data, npartitions=8)

dask_data = dask_data.assign(
    images_array_1=dask_data.images_array_1.apply(lambda x: [] if x == "" else [int(el) for el in x.split(',')], name='images_array_1'),
    images_array_2=dask_data.images_array_2.apply(lambda x: [] if x == "" else [int(el) for el in x.split(',')], name='images_array_2')
)
dask_data.compute(get=dask.multiprocessing.get)

私は計算を並列化するためだけにdaskを使用しています.私のデータセットはメインメモリにとどまるのに十分小さいです.

すべてのプロセスを並行して実行することは可能ですか?

4

1 に答える 1