4

かなり自明な質問。Azure ML Notebooks と Azure Databricks はいつ使用する必要がありますか? この 2 つの製品には大きな重複があると感じており、一方が他方よりも確実に販売されています。

主に、データセットのサイズと典型的なワークフローに関する情報を探しています。Spark 指向のワークフローがない場合、AzureML で Databricks を使用する必要があるのはなぜですか?

ありがとう !

4

1 に答える 1

5

@Nethim、私の視点から、これらは主な違いです:

  1. データ配布:

    • Azure ML Notebooks は、単一のマシンで限られたデータを使用してトレーニングする場合に適しています。Azure ML はトレーニング クラスターを提供しますが、ノード間のデータ分散はコードで処理されます。
    • RDD を備えた Azure Databricks は、複数のノードに分散されたデータを処理するように設計されています。これは、データ サイズが巨大な場合に有利です。の Azure Databricks はやり過ぎです
  2. データ クリーニング: Databricks は多くのファイル形式をネイティブにサポートでき、AzureML ノートブックでカスタム処理する必要がある巨大なデータセットのクエリとクリーニングは簡単です。これは aml ノートブックで実行できますが、ストアへのクリーニングと書き込みを処理する必要があります。

  3. トレーニング トレーニングを分散する場合、両方の機能があります。Databricks は、そのノード上のデータのチャンクに作用し、他のノードと調整できる組み込みの ML アルゴリズムを提供します。これは AzureMachineLearning と Databricks の両方で tf、horovod などで実行できますが、

一般的に (あくまで私の意見です)、データセットが小さい場合は、AML ノートブックが適しています。データ サイズが大きい場合、Azure Databricks はデータのクリーンアップとフォーマット変換が簡単です。その場合、トレーニングは AML または Databricks で行うことができます。 Azure ML は python と pandas を使用すると簡単に学習できます。

ありがとう。

于 2020-04-02T10:28:00.850 に答える