sql - 100 万個のデータポイントのグループ化が遅い

Question

X 座標と Y 座標を表す 2 つの float 列を含む単純なテーブルがあります。非クラスター化インデックスは、これら 2 つの列のそれぞれにあります。このテーブルには、このような SQL を使用してカスタムグリッドにグループ化したい約 500 万のデータポイントがあります。

SELECT COUNT(X) Count, AVG(X) CenterX, AVG(Y) CenterY
FROM DataPoints
GROUP BY FLOOR(X / 5), FLOOR(Y / 5)

テストケースでは、815000 ポイントのデータセットをグリッドに分割し、各ポイントが独自のグリッドセルを取得しました。SQL Server 2012が結果を提供するのに26000 ミリ秒かかりましたが、これは明らかに長すぎます。シンプルなポイント配列で LINQ を使用して同じグループ化の C# 実装を作成しましたが、 3450msしかかかりませんでした。スピードアップのために SQL のストアドプロシージャも作成しましたが、それでもグリッドセルの計算に 26 ～ 30 秒かかります。

SQL Server がこれらのグループを計算するのに時間がかかる理由がわかりません。すべての 815000 ポイントでグリッドセルインデックスを計算するには時間がかかることはわかっていますが、単純な C# プログラムよりも 7 倍長いというのは現実的な結果ではありません。

また、空間型を使用してグリッドを計算しようとしましたが、これらのソリューションはさらに遅くなります。ジオメトリ列と空間インデックス (GEOMETRY_AUTO_GRID) を使用するとsp_help_spatial_geometry_histogram、データを含む 4 つのグリッドセルを計算するのに 2:40 分かかります。

このような単純な SQL を高速化する方法を知っている人はいますか? 将来、このデータはブラウザのマップに送信され、多くのリクエストが発生するため、100 ミリ秒未満が最終的な目標になります。

sql - 100 万個のデータ ポイントのグループ化が遅い

1 に答える 1

Related

Reference

sql - 100 万個のデータポイントのグループ化が遅い