3

コンピューティング ターゲットで実行されるトレーニング スクリプト中に、登録済みのデータセットを ADLS2 データストアからダウンロードしようとしています。問題は、次の方法でコンピューティング ターゲットに ~1.5Gb (~8500 ファイルに分割) をダウンロードするのに数時間かかることです。

from azureml.core import Datastore, Dataset, Run, Workspace

# Retrieve the run context to get Workspace
RUN = Run.get_context(allow_offline=True)

# Retrieve the workspace
ws = RUN.experiment.workspace

# Creating the Dataset object based on a registered Dataset
dataset = Dataset.get_by_name(ws, name='my_dataset_registered')

# Download the Dataset locally
dataset.download(target_path='/tmp/data', overwrite=False)

重要な注意:データセットは、約 170Kb の小さなファイルを含む多くのサブフォルダー (およびサブサブフォルダーなど) を含む Datalake のパスに登録されます。

注:az copy Storage Explorerを使用して、数分以内に完全なデータセットをローカル コンピューターにダウンロードできます。また、データセットは、サブフォルダーをスキャンするための ** ワイルドカードを使用して、フォルダー ステージで定義されます。datalake/relative/path/to/folder/**

それは既知の問題ですか?転送速度を改善するにはどうすればよいですか?

ありがとう !

4

2 に答える 2

3

より答えのように編集されました:

使用している azureml-core および azureml-dataprep SDK のバージョン、コンピューティング インスタンスとして実行している VM の種類、およびデータセットに含まれるファイルの種類 (例: jpg? txt?) を含めると役立ちます。使用しています。また、完全なデータセットをコンピューティングにダウンロードすることで何を達成しようとしていますか?

現在、コンピューティング インスタンス イメージには、1 ~ 2 か月前の azureml-core 1.0.83 と azureml-dataprep 1.1.35 がプリインストールされています。さらに古いバージョンを使用している可能性があります。ノートブックで実行してアップグレードを試すことができます。

%pip install -U azureml-sdk

シナリオに改善が見られない場合は、公式ドキュメント ページで問題を報告して、FileDatasetの参照ページなど、問題のデバッグを手伝ってくれる人を得ることができます。

(2020 年 6 月 9 日に編集され、実験的リリースについての言及が削除されました。これはもう行われていないためです)

于 2020-03-11T02:52:07.880 に答える