# Init
import time
import pandas as pd
import numpy as np
from dask.distributed import Client
client = Client()
# Publish data
dataset_name = 'my_dataset'
df_my_dataset = pd.DataFrame(np.ones((2,3)), dtype=np.float32)
client.publish_dataset(df_my_dataset, name=dataset_name)
それはそこにある:
In [13]: client.list_datasets()
Out[13]: ('my_dataset',)
dask の送信関数を作成します。ここでは、公開されたデータセットに名前でアクセスしたいと思います。
# submit function
def get_gate1_rows(df_from_submit):
return df_from_submit.mean()
# return df.mean() + my_dataset.mean() #### <<<<<<< How to do this?
そして最後に提出します:
# Submit code
df_zeros = np.zeros((2,3), dtype=np.float32)
future = client.submit(get_gate1_rows, df_zeros)
time.sleep(2)
result = future.result()
これは生成されますが、次のようになります0.5
。
In [41]: result
Out[41]: 0.0
では、dask ジョブ内published dataset
からどのようにアクセスできますか?