コンピューティング ターゲットで実行されるトレーニング スクリプト中に、登録済みのデータセットを ADLS2 データストアからダウンロードしようとしています。問題は、次の方法でコンピューティング ターゲットに ~1.5Gb (~8500 ファイルに分割) をダウンロードするのに数時間かかることです。
from azureml.core import Datastore, Dataset, Run, Workspace
# Retrieve the run context to get Workspace
RUN = Run.get_context(allow_offline=True)
# Retrieve the workspace
ws = RUN.experiment.workspace
# Creating the Dataset object based on a registered Dataset
dataset = Dataset.get_by_name(ws, name='my_dataset_registered')
# Download the Dataset locally
dataset.download(target_path='/tmp/data', overwrite=False)
重要な注意:データセットは、約 170Kb の小さなファイルを含む多くのサブフォルダー (およびサブサブフォルダーなど) を含む Datalake のパスに登録されます。
注:az copy
Storage Explorerを使用して、数分以内に完全なデータセットをローカル コンピューターにダウンロードできます。また、データセットは、サブフォルダーをスキャンするための ** ワイルドカードを使用して、フォルダー ステージで定義されます。datalake/relative/path/to/folder/**
それは既知の問題ですか?転送速度を改善するにはどうすればよいですか?
ありがとう !