HDFS 上のフラット ファイルを、行の更新がある可能性がある大規模なデータベース テーブルと同期させる最善の方法は何ですか?
sqoop などのツールは、テーブルから新しい行を段階的に抽出できるので便利なように思えますが、行の更新を処理する簡単な方法がわかりません。
行の更新を効率的に処理するには、どのような手法を使用できますか? 毎晩テーブル全体をダンプすることは避けたいことです。
毎晩変更されたデータのみを取得するために、mysql テーブルに updated_at フィールドを設定することを好みます。その後、単純な map reduce を実行して、古い状態に変更を適用 (マージ) します。
以下にいくつかの提案を示します。