Azure Data Factory と 1 つの Databricks Notebook を使用して、テーブルのリストを並行して変換したいと考えています。
テーブルのリストをパラメーターとして受け取り、テーブル リストから各テーブルを変数として設定し、単一のノートブック (単純な変換を実行する) を呼び出し、各テーブルを連続して渡す Azure Data Factory (ADF) パイプラインが既にありますこのノート。問題は、テーブルが順次 (次々に) 変換され、並列 (すべてのテーブルが同時に) 変換されないことです。テーブルを並行して処理する必要があります。
したがって、私の質問は次のとおりです。1) Azure Data Factory から、同じ Databricks ノートブックをまったく同じ時点で (毎回異なるテーブルをパラメーターとして使用して) 複数回トリガーすることは可能ですか? 2) はいの場合、パイプラインまたはノートブックを機能させるために何を変更する必要がありますか?
前もって感謝します :)
パラメーター
変数
テーブル変数と Notebook の設定
順次構成
バッチカウント = ブランクで順次チェックなし
「シーケンシャル」およびバッチ カウント = 空白として構成し、2 つのテーブルを渡すと、パイプラインは「正常に」実行されますが、1 つのテーブルのみが変換されます (テーブル リストに複数のテーブルを追加しても)。「変数の設定」は、テーブルごとに 1 回、2 回正しく表示されます。ただし、Orchestrate は同じテーブルに対して 2 回表示されます。
バッチ カウント = 2 でシーケンシャル チェックなし
「シーケンシャル」およびバッチ カウント = 2 として構成され、2 つのテーブルを渡すと、パイプラインは 2 回目の反復で失敗しますが、同じテーブルを 2 回変換しようとします。「変数の設定」は、テーブルごとに 1 回、2 回正しく表示されます。ただし、Orchestrate は同じテーブルに対して 2 回表示されます。
順次チェック済みまたはバッチ カウント = 1
Sequential Checked または Batch Count =1 のままにすると、パイプラインは正しく実行され、すべてのテーブルで変換が実行されますが、処理は連続して行われます (期待どおり)。以下は 5 つのテーブルの例です。
変数タスクの設定
値 @item() で渡される変数テーブル
文字列として定義された変数「テーブル」
パラメータ「table_list」
パイプライン実行パラメーター