delayed
多くの大きなCSVファイルを読み取るために使用しています:
import pandas as pd
def function_1(x1, x2):
df_d1 = pd.read_csv(x1)
# Some calculations on df_d1 using x2.
return df_d1
def function_2(x3):
df_d2 = pd.read_csv(x3)
return df_d2
def function_3(df_d1, df_d2):
# some calculations and merging data-sets (output is "merged_ds").
return merged_ds
function_1
: データセット 1 をインポートし、いくつかの計算を実行しています。function_2
: データセット 2 をインポートしています。function_3
: データセットといくつかの計算をマージします。
次に、関数を使用してこれらの関数を呼び出すループを使用しdelayed
ます。多くの CSV ファイルがあり、すべてのファイルが 500 MB を超えています。これは DASK ( delayed
) を使用してタスクを実行するための適切な手順ですか?