1

Azure Data Factory と 1 つの Databricks Notebook を使用して、テーブルのリストを並行して変換したいと考えています。

テーブルのリストをパラメーターとして受け取り、テーブル リストから各テーブルを変数として設定し、単一のノートブック (単純な変換を実行する) を呼び出し、各テーブルを連続して渡す Azure Data Factory (ADF) パイプラインが既にありますこのノート。問題は、テーブルが順次 (次々に) 変換され、並列 (すべてのテーブルが同時に) 変換されないことです。テーブルを並行して処理する必要があります。

したがって、私の質問は次のとおりです。1) Azure Data Factory から、同じ Databricks ノートブックをまったく同じ時点で (毎回異なるテーブルをパラメーターとして使用して) 複数回トリガーすることは可能ですか? 2) はいの場合、パイプラインまたはノートブックを機能させるために何を変更する必要がありますか?

前もって感謝します :)

パラメーター

ADF パラメータ

変数

変数

テーブル変数と Notebook の設定

ここに画像の説明を入力

順次構成

順次構成

バッチカウント = ブランクで順次チェックなし

「シーケンシャル」およびバッチ カウント = 空白として構成し、2 つのテーブルを渡すと、パイプラインは「正常に」実行されますが、1 つのテーブルのみが変換されます (テーブル リストに複数のテーブルを追加しても)。「変数の設定」は、テーブルごとに 1 回、2 回正しく表示されます。ただし、Orchestrate は同じテーブルに対して 2 回表示されます。

ここに画像の説明を入力

バッチ カウント = 2 でシーケンシャル チェックなし

「シーケンシャル」およびバッチ カウント = 2 として構成され、2 つのテーブルを渡すと、パイプラインは 2 回目の反復で失敗しますが、同じテーブルを 2 回変換しようとします。「変数の設定」は、テーブルごとに 1 回、2 回正しく表示されます。ただし、Orchestrate は同じテーブルに対して 2 回表示されます。

バッチ カウント = 2 でシーケンシャル チェックなし

順次チェック済みまたはバッチ カウント = 1

Sequential Checked または Batch Count =1 のままにすると、パイプラインは正しく実行され、すべてのテーブルで変換が実行されますが、処理は連続して行われます (期待どおり)。以下は 5 つのテーブルの例です。

順次チェック済みまたはバッチ カウント = 1

シーケンシャル チェックまたはバッチ カウント =1 の例

変数タスクの設定

変数タスクの設定の概要

値 @item() で渡される変数テーブル

値 @item() で渡される変数テーブル

文字列として定義された変数「テーブル」

変数

パラメータ「table_list」

パラメータ

パイプライン実行パラメーター

パイプライン実行パラメーター

4

1 に答える 1