1

私はデータ ウェアハウス システムを設計しています。元のデータ ソースは、ファイル (16 進形式、既知のレコード構造) と PostgreSQL データベースの 2 つです。ETL フェーズでは、2 つのソース (ファイルと DB) のコンテンツを読み取り、それらを結合/統合/クリーニングする必要があります。この後、データを DW にロードします。

この目的には、ツール (Talend など) とアドホック ソリューション (プログラミング言語を使用してアドホック ルーチンを作成する) のどちらが適していますか?

4

1 に答える 1

1

Bulk Loaderを使用してフラット ファイルを DB に取り込むことをお勧めします。これにより、ロード ルールをカスタマイズし、通常の SQL を使用して結果のデータ セットを処理/クレンジングできます (他のカスタム コードを記述する必要はありません)。

于 2012-07-12T15:12:00.367 に答える