0

2 つのハイブ テーブルがあり、そのうちの 1 つ (テーブル A) はもう一方 (テーブル B) に依存しています。テーブル B でデータが使用可能になるとすぐに、テーブル A へのデータのロードを自動化する予定です。 外部プロセスは毎日テーブル B に新しいパーティションを作成し、パーティションの作成を監視してから、データのロードをトリガーする予定ですテーブル B. ただし、Hive は、書き込みが開始されるとすぐにパーティションを作成します。しかし、パーティションへの書き込み操作が完了したかどうかを監視する方法がわかりませんでした。この状況を処理する標準的な方法があるかどうか疑問に思っていました。

1. hdfs でパーティション ディレクトリの更新タイムスタンプを監視し、現在時刻と更新時刻の時間差が特定のしきい値を超えている場合は、操作を実行します。2. パーティション内のレコード数を追跡し、増加が止まったら操作を実行します。

4

0 に答える 0