3

プライマリ データ ストア (および「Universal Source of Truth」) が Postgres であるシステムがありますが、そのデータをリアルタイムと夜間の両方で集約してレプリケートします。現在、Elasticsearch、Redis、Redshift (夜間のみ) にレプリケートしており、Neo4j も追加しています。

私たちの ETL パイプラインは十分に拡張されており、 AirflowLuigiなどのツールを検討し始めていますが、最初の調査からわかることから、これらのツールはほぼ完全に一括読み込みを目的としています。

大規模なバッチ ETL プロセスと、オンザフライで大量の個別レコードのレプリケーションの両方を処理できる ETL プロセスを処理できるツールはありますか? Airflow または Luigi はこれを処理しますか?

ありがとう!

4

2 に答える 2

1

私はさまざまな ETL エンジンの専門家ではありませんが、Pentaho Kettle で多くのことを行ってきましたが、パフォーマンスに関してはかなり満足しています。特に、並列処理を利用するように変換を調整する場合。

私は主に統合 (リアルタイム) の処理と ETL を実行してレポート DB を駆動する夜間ジョブに使用しましたが、多くのリアルタイム タスクを実行するように設定できると確信しています。

バックエンドであらゆる種類のものを一度リアルタイムで呼び出す Web サービスをセットアップしましたが、負荷がかかっていることはほとんどなく、あなたは私たちよりも重いことをしているように思えます。また、ETL サーバーをクラスター化して、実際に遊んだことのないものをスケーリングする機能もあります。

時間をかけて正しく設定すれば、ケトルがこれらのことを行うことができると思います。全体的に私はツールが大好きです。GUI TBH で作業するのは楽しいことです。GUI から ETL を実行することに慣れていない場合や疑問がある場合は、チェックしてみてください。あなたは驚くかもしれません。

于 2016-10-13T19:36:21.340 に答える