クライアントのデータ パイプラインを設定中です。私は何年も分析の側で過ごしてきましたが、今は実稼働環境しかない小さなショップで働いています。最初に行ったのは、本番環境のレプリケートされたインスタンスを作成することでしたが、分析部分をより簡単にするために、一種のデータ ウェアハウスの考え方を適用したいと考えています。
私の質問は、どのツールを使用するかということになります。また、なぜですか?私は ETL 向けの Talened のようなソリューションを検討してきましたが、Airflow にも非常に興味があります。問題は、どちらが自分のニーズにより適しているかよくわからないことです。ジョブを簡単に監視および作成したい (私は Python をかなり流暢に記述しているため、Airflow ジョブの作成は問題になりません) だけでなく、データが入ってくると変換できるようにしたいと考えています。
どんな提案でも大歓迎です