プライマリ データ ストア (および「Universal Source of Truth」) が Postgres であるシステムがありますが、そのデータをリアルタイムと夜間の両方で集約してレプリケートします。現在、Elasticsearch、Redis、Redshift (夜間のみ) にレプリケートしており、Neo4j も追加しています。
私たちの ETL パイプラインは十分に拡張されており、 AirflowやLuigiなどのツールを検討し始めていますが、最初の調査からわかることから、これらのツールはほぼ完全に一括読み込みを目的としています。
大規模なバッチ ETL プロセスと、オンザフライで大量の個別レコードのレプリケーションの両方を処理できる ETL プロセスを処理できるツールはありますか? Airflow または Luigi はこれを処理しますか?
ありがとう!