sql-server-2008 - 境界を越えて均等に分散されたデータを並べて表示する方法

Question

データのステージングに使用されるパーティション分割されたテーブルにロードする必要がある、時間ベースの一連のレコードがあります。ステージテーブルは日ごとに分割されています。効率を高めるために、ステージテーブルへのデータロードを複数の「プロセッサ」(SSIS のストリーム) に分散しました。データがステージングされたら、データマートにロードする前に、一連の重複除外操作を実行します。ただし、日付で分割されたセット全体で NTILE 関数を使用しているため、ステージングされたデータがプロセッサ間で均等に分割されないことが私の課題です。

したがって、5 プロセッサの場合、次の分布が表示される可能性があります ...

Processor 1, >= 2011-01-01 and < 2011-05-01, Rows = 200,000
Processor 2, >= 2011-05-01 and < 2011-09-01, Rows = 3,000,000
Processor 3, >= 2011-09-01 and < 2012-01-01, Rows = 6,000,000
Processor 4, >= 2012-01-01 and < 2012-05-01, Rows = 6,000,000
Processor 5, >= 2012-05-01 and < 2012-09-01, Rows = 0

データ量は指数関数的に増加しているため、今日のロード時にはプロセッサー 4 は 6,000,000 しかありませんが、全範囲が読み込まれると、プロセッサー 4 は合計で 8,000,000 行 (レコード) を処理する可能性があります。

私の目標は、2 つのプロセッサが同じパーティション (日) で競合しないようにしながら、行数に基づいてプロセッサ間で作業を均等に分散することです。

したがって、ビジュアルとして、ディストリビューションは次のように見える必要があります...

Processor 1, >= 2011-01-01 and < 2011-09-01, Rows (3,200,000)
Processor 2, >= 2011-09-01 and < 2011-11-01, Rows (3,000,000)
Processor 3, >= 2011-11-01 and < 2012-01-01, Rows (3,000,000)
Processor 4, >= 2012-01-01 and < 2012-01-03, Rows (3,000,000)
Processor 5, >= 2012-01-03 and < 2012-03-18, Rows (3,000,000; 2012-03-18 contains most current data)

どんなフィードバックでも大歓迎です。

score 0 · Accepted Answer

これはアイデアですが、重複除外の要件によって異なります。現在のパーティショニングスキームでは、数か月分のレコードをまとめて保持しています。1 日のすべてのレコードが同じパーティションにある場合、重複除外は機能しますか?

その場合は、日ごとの「ラウンドロビン」パーティショニングを実行できます。範囲を使用する代わりに、日付を数値に変換し、mod 5 に基づいてパーティションを割り当てます。次に例を示します。

select CAST(<thedate> as int)%5

これにより、負荷分散が大幅に改善されるはずです。

sql-server-2008 - 境界を越えて均等に分散されたデータを並べて表示する方法

1 に答える 1

Related

Reference