データ ウェアハウスでの ETL 処理のために、SSIS ソリューションを Hadoop に変換しています。
私の期待するシステム:
ETL - ランディング & ステージング (Hadoop) ----put-data---> Data-warehouse(MySQL)
問題は、transform 句では、Hadoop 側 (pig または mapreduce ジョブ) から MySQL のデータを検索する必要があることです。2 つの解決策があります。
1 つ目: MySQL から Hadoop にルックアップする必要があるすべてのテーブルをクローンします。これは、2 つの場所からデータを維持する必要があることを意味します。
2 番目: MySQL に直接クエリを実行します。MySQL サーバーに多くの接続が来るのが心配です。
この問題の解決策/ベスト プラクティスは何ですか? 他の解決策はありますか。