2

delayed多くの大きなCSVファイルを読み取るために使用しています:

import pandas as pd

def function_1(x1, x2):         
    df_d1 = pd.read_csv(x1)
    # Some calculations on df_d1 using x2.
    return df_d1

def function_2(x3):         
    df_d2 = pd.read_csv(x3)
    return df_d2

def function_3(df_d1, df_d2):         
    # some calculations and merging data-sets (output is "merged_ds").
    return merged_ds
  • function_1: データセット 1 をインポートし、いくつかの計算を実行しています。
  • function_2: データセット 2 をインポートしています。
  • function_3: データセットといくつかの計算をマージします。

次に、関数を使用してこれらの関数を呼び出すループを使用しdelayedます。多くの CSV ファイルがあり、すべてのファイルが 500 MB を超えています。これは DASK ( delayed) を使用してタスクを実行するための適切な手順ですか?

4

1 に答える 1