4

私は、HDFSからSQLServerにデータを移植するための最良のアプローチを見つけようとしていました。

  • SQL Server 2008R2用のsqoopHadoopコネクタを使用してClouderaHadoopからデータをインポートしますか?
  • sqoopを使用してClouderaHadoopからSQLServerにデータをエクスポートしますか?

私が読んだたくさんのリンクに基づいて、両方が可能であると確信しています

しかし、構成とメンテナンスのレベルで発生する可能性のある問題を探しているとき、適切な答えがありません。

私は輸入に行くべきだと強く感じていますが、時々発生する可能性のある問題のトラブルシューティングと保守に不安を感じています。

誰かが最高のものについての考えを共有できますか?

4

1 に答える 1

3

どちらのオプションも同じ方法を使用します: Apache Sqoop のエクスポート ユーティリティです。ライセンスされた Microsoft コネクタ/ドライバ jar を使用すると、Apache Sqoop が提供する汎用コネクタを使用するよりも、タスクのパフォーマンスが向上することが期待されます。

メンテナンスに関しては、正常に動作していれば何もないはずです。使用中の SQL Server のバージョンがドライバー jar によってサポートされている限り、通常どおり動作し続けるはずです。

-m構成に関しては、エクスポート ツールによって開始された Export MapReduce ジョブの並列処理の最適な値を見つけるために、最初に手動で調整する必要がある場合があります。値が高すぎると DB 側で問題が発生し、値が低すぎると理想的なパフォーマンスが得られません。-m適切な並列処理を設定するには、DB のロード期間に関する知識とともに、適切な値に到達するために試行錯誤が必要です。

エクスポート ツールのユーザー向けの Apache Sqoop (v1)ドキュメント ページにも、エクスポート ジョブの失敗の一般的な理由が一覧表示されています。ここでそれらを表示することをお勧めします。

MapReduce 側では、定義済みのスケジューラー プールまたはキューを、ビジネス クリティカルな外部書き込みジョブ専用にすることもできます。スケジューラーは、ジョブが適切なリソースを取得できるように、各プールまたはキューで SLA 保証を定義するのを好み、支援しますFairSchedulerCapacityScheduler起動時に実行します。

于 2013-04-06T12:49:11.947 に答える