python - 遅延 (DASK) を使用した大きな CSV ファイルの読み取り

翻译自：https://stackoverflow.com/questions/54970088 2019-03-03T14:51:20.847

583 次

delayed多くの大きなCSVファイルを読み取るために使用しています：

import pandas as pd

def function_1(x1, x2):         
    df_d1 = pd.read_csv(x1)
    # Some calculations on df_d1 using x2.
    return df_d1

def function_2(x3):         
    df_d2 = pd.read_csv(x3)
    return df_d2

def function_3(df_d1, df_d2):         
    # some calculations and merging data-sets (output is "merged_ds").
    return merged_ds

function_1: データセット 1 をインポートし、いくつかの計算を実行しています。
function_2: データセット 2 をインポートしています。
function_3: データセットといくつかの計算をマージします。

次に、関数を使用してこれらの関数を呼び出すループを使用しdelayedます。多くの CSV ファイルがあり、すべてのファイルが 500 MB を超えています。これは DASK ( delayed) を使用してタスクを実行するための適切な手順ですか?

python - 遅延 (DASK) を使用した大きな CSV ファイルの読み取り

1 に答える 1

Related

Reference