4

AWS Data Pipeline でサポートされているデータ ソースに関するドキュメントを探しています。私がする必要があるのは、SQL Server RDS データを S3 にエクスポートすることです。Data Pipeline が RDS をソースとして使用できるという多くのドキュメントを見つけましたが、私が目にするすべての例は MySQL RDS のみのものです。

Data Pipeline と SQL Server RDS の経験がある人はいますか? その場合、SQL Server RDS に接続するためにどのデータ ノードを使用していますか (MySqlDataNode、SqlDataNode など)?

最終的な目標は、SQL Server RDS から AWS Red Shift にデータを移動することです。

ありがとう

4

2 に答える 2

1

これには Data Pipeline を使用することを断念しました。これには通常の ETL ツールを使用することをお勧めします。Windows サーバーを実行している場合は、SSIS がおそらく最良の選択です。それ以外の場合は、Pentaho または Talend を調べてください。

ASCII 以外のデータはありますか? SQL Server の UTF16-LE から UTF8 にデータを取得することは、私の最大の頭痛の種でした。解決策の一部をブログ ( http://blog.joeharris76.com/2013/09/migrating-from-sql-server-to-redshift.html ) に書きました。

于 2014-05-23T12:55:46.610 に答える
0

データ パイプラインには、まだ MySQL RDS のサポートが組み込まれているだけのようです。

1 つのオプションは、EMR クラスターをスピンアップし、sqoop を使用することです。sqoop を使用して s3 にインポートし、COPY コマンド (またはデータ パイプライン) を使用して直接 Redshift にロードできます。

data-pipelines EMRResource があります。マスターに sqoop をダウンロードしてセットアップし、関連する jdbc ドライバーをフェッチするブートストラップ タスクを作成する必要があります。

sqoopまた、EMRActivity は、マスターのシェル スクリプトからコマンドを実行したいときに、jar ファイルが必要なようです。それがどれほど簡単に回避できるかはわかりません。EMRResource を使用した ShellCommandActivity でしょうか。

于 2015-09-18T06:45:22.890 に答える