sql - 多くのインデックスを持つテーブルの一括挿入が遅い

Question

20 を超えるインデックスを持つテーブルに何百万ものレコードを挿入しようとしています。

前回の実行では、100.000 行あたり 4 時間以上かかり、クエリは 3 日半後にキャンセルされました...

これをスピードアップする方法について何か提案はありますか。

（インデックスが多いことが原因だと思います。あなたもそう思うなら、操作前にインデックスを自動的に削除し、後で同じインデックスを再度作成するにはどうすればよいですか？）

追加情報:

インデックスが使用するスペースは、データのみが使用するスペースの約 4 倍です。
挿入は、100.000 行ごとにトランザクションでラップされます。

ステータスの更新:

受け入れられた答えは、私がそれをはるかに速くするのに役立ちました.

score 43 · Accepted Answer

インデックスを無効または有効にすることができます。それらを無効にすると、インデックスを再度有効にした場合にのみ見られる望ましくない副作用 (主キーの重複や一意のインデックスなど) が発生する可能性があることに注意してください。

--Disable Index
ALTER INDEX [IXYourIndex] ON YourTable DISABLE
GO

--Enable Index
ALTER INDEX [IXYourIndex] ON YourTable REBUILD
GO

score 9 · Accepted Answer

これは、データウェアハウス操作のように聞こえます。挿入前にインデックスを削除し、後で再構築するのが通常です。

インデックスを再構築するときは、最初にクラスター化インデックスを構築し、逆に最後にドロップします。それらはすべてfillfactor100％を持っている必要があります。

コードは次のようになります

if object_id('Index') is not null drop table IndexList
select name into Index from dbo.sysindexes where id = object_id('Fact')

if exists (select name from Index where name = 'id1') drop index Fact.id1
if exists (select name from Index where name = 'id2') drop index Fact.id2        
if exists (select name from Index where name = 'id3') drop index Fact.id3
.
.
BIG INSERT

RECREATE THE INDEXES

score 4 · Accepted Answer

別の回答で指摘されているように、インデックスを無効にすることは非常に良いスタートになります。

100.000行あたり4時間[...]挿入は100.000行あたりのトランザクションにラップされます。

数を減らすことを検討する必要があります。サーバーはトランザクション中に大量の状態を維持する必要があり（ロールバックできるように）、これは（インデックスとともに）データの追加が非常に困難な作業であることを意味します。

各挿入ステートメントを独自のトランザクションでラップしてみませんか？

また、使用しているSQLの性質を確認します。ステートメントごとに1行を追加しますか（およびネットワークラウンドトリップ）、それとも多数追加しますか？

score 3 · Accepted Answer

そのような場合は、インデックスを無効にしてから再度有効にすることをお勧めします。ただし、次の理由から、このアプローチには疑問があります。

(1) アプリケーションのDB利用者は、通常は持つべきでないスキーマ変更権限を必要とします。(2) 選択された挿入アプローチおよび/またはインデックススキーマは、そもそも最適ではない可能性があります。それ以外の場合、完全なインデックスツリーの再構築は、適切なバッチ挿入よりも高速ではありません (たとえば、クライアントが一度に 1 つの挿入ステートメントを発行すると、数千のサーバーラウンドトリップ、またはクラスター化されたインデックスの不適切な選択により、一定のインデックスノード分割が発生します)。

そのため、私の提案は少し異なって見えます。

ADO.NET BatchSize を増やす
ターゲットテーブルのクラスター化インデックスを慎重に選択して、挿入によってクラスター化インデックスノードの分割が発生しないようにします。通常、ID 列は適切な選択です
クライアントが最初に一時ヒープテーブルに挿入できるようにします (ヒープテーブルにはクラスター化インデックスがありません)。次に、1 つの大きな「insert-into-select」ステートメントを発行して、ステージングテーブルデータをすべて実際のターゲットテーブルにプッシュします。
SqlBulkCopy を適用する
一括ログ復旧モデルを選択してトランザクションログを減らす

詳細については、この記事を参照してください。

sql - 多くのインデックスを持つテーブルの一括挿入が遅い

4 に答える 4

Related

Reference