postgresql - 正規化されていないデータセットをPostgreSQLに一括ロードする最も効率的な方法は?

Question

巨大な CSV データセット (PostgreSQL の COPY を使用して Eclipse のフィルター処理された使用状況データ) をロードしましたが、正規化されていないため、膨大な量のスペースが必要です: TEXT 列の 3 つが、メインから参照されるように別々のテーブルにリファクタリングされ、はるかに効率的です。外部キー列を持つテーブル。

私の質問は、すべてのデータをロードした後にデータベースをリファクタリングする方が速いですか、それともすべての制約を使用して目的のテーブルを作成してからデータをロードする方が速いですか? 前者は巨大なテーブル (10^9 行近く) を繰り返しスキャンする必要があり、後者は CSV 行ごとに複数のクエリを実行する必要があります (たとえば、このアクションタイプは以前に見られたことがありますか? そうでない場合は、アクションテーブルに追加して、そのID、正しいアクション ID を使用してメインテーブルに行を作成するなど）。

現在、各リファクタリングのステップにはおよそ 1 日ほどかかり、初期ロードにもほぼ同じ時間がかかります。

score 4 · Accepted Answer

私の経験から、関心のあるすべてのデータをデータベースのステージングテーブルに取得し、そこから移動した後、ストアドプロシージャを介して可能な限り多くのセットベースのロジックを実行する必要があります。ステージングテーブルにロードするとき、テーブルにはインデックスがありません。データがテーブルにロードされた後、インデックスを作成します。

いくつかのヒントについては、このリンクをチェックしてください http://www.postgresql.org/docs/9.0/interactive/populate.html

postgresql - 正規化されていないデータセットをPostgreSQLに一括ロードする最も効率的な方法は?

1 に答える 1

Related

Reference