Oracle DataWarehouse から HDFS に数百 GB のデータを抽出する増分夜間ジョブを実行したいと考えています。処理後、結果 (数 GB) を Oracle にエクスポートする必要があります。
Amazon AWS で Hadoop を実行しており、データ ウェアハウスはオンプレミスです。AWS とオンプレミスの間のデータ リンクは 100 mbps であり、信頼性がありません。
Sqoop-import を使用して Oracle からデータを取り込み、ネットワークで断続的な停止が発生した場合、Sqoop はこれをどのように処理しますか? また、データの 70% をインポート (またはエクスポート) し、残りの 30% の間にネットワークがダウンした場合はどうなりますか?
Sqoop はデフォルトで JDBC を使用するため、データ転送はネットワーク レベルでどのように行われるのでしょうか? 転送中のデータを圧縮できますか?