問題タブ [airflow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
airflow - Airflow Python クライアント
いくつかのアプリケーションを実行しており、気流の使用を開始したいと考えています。ドキュメントによると、DAG を開始する唯一の方法はコマンド ラインを使用することです。これは本当ですか?
たとえば、フラスコサーバーを実行していて、気流によって制御されるワークフローを開始したいとします。どうすればこれを達成できますか? トリガーする API はありますか: 「パラメーター x、y、h を使用して DAG を実行する」など。
airflow - Airflow DAG ごとに異なるエグゼキュータを設定できますか?
既存の Airflow サーバーに別の DAG を追加しようとしています。サーバーは現在 LocalExecutor を使用していますが、DAG で CeleryExecutor を使用したい場合があります。airflow.cfg
構成ファイルでは 1 つのエグゼキューターのみが許可されているようです。
既存の DAG が LocalExecutor を引き続き使用でき、新しい DAG が CeleryExecutor またはカスタム executor クラスを使用できるように Airflow を構成することは可能ですか? これを行っている人の例は見つかりませんでしたし、Airflow のドキュメントにも何も見つかりませんでした。
celery - Airflow のエグゼキューターを LocalExecutor から CeleryExecutor にアップグレードするのはいつですか?
現在、LocalExecutor を使用して複数の Airflow DAG を実行していますが、正常に動作しています。私のサーバーには十分なリソースがあります。大規模なプロジェクトに新しい DAG を追加しようとしていますが、LocalExecutor から CeleryExecutor に切り替えることを検討しています。
私の質問は、CeleryExecutor に切り替える必要がある兆候は何ですか? いつスケールアウトを開始する必要があるかを知るために確認する必要がある特定のパフォーマンス メトリックはありますか?
python - エアフローがダグの実行を埋め戻すのを防ぐにはどうすればよいですか?
バックフィルが意味をなさない気流 DAG があるとします。つまり、一度実行すると、その後すぐに実行してもまったく意味がありません。
たとえば、1 時間ごとにしか更新されないソースからデータベースにデータをロードしている場合、立て続けに発生するバックフィルは、同じデータを何度もインポートすることになります。
これは、新しい時間単位のタスクをインスタンス化する場合に特に厄介であり、N
指定した間隔で実行を開始する前に、逃した時間ごとに何度も実行され、冗長な作業が行われます。
私が考えることができる唯一の解決策は、ドキュメントのFAQで具体的にアドバイスされているものです
datetime.now()
特に混乱を招く可能性があるため、start_date として動的な値を使用しないことをお勧めします。
DAG のバックフィルを無効にする方法はありますか?
airflow - Airflow は最新の実行をバックフィルしません
何らかの理由で、Airflow は、毎週のスケジュール間隔で日付の最新の実行をトリガーしていないようです。
現在の日付:
DAG:
スケジューラーを実行
スケジューラは 7/18、7/25、8/1、および 8/8 にバックフィルする必要があるため、合計 4 つの DAG 実行が予想されます。ただし、最後の実行はスケジュールされていません。
編集1:
私の問題を説明しているようには見えませんが、Vineet のことは理解しています。
上記の例では、DAG の開始日は 7 月 18 日です。
- 最初の DAG 実行: 7 月 18 日
- 2 回目の DAG 実行: 7 月 25 日
- 3 回目の DAG 実行: 8 月 1 日
- 4 回目の DAG 実行: 8 月 8 日 (実行されません)
各 DAG 実行が前週のデータを処理する場所。
今日は 8 月 9 日なので、4 回目の DAG 実行が 8 月 8 日の実行日で実行され、先週 (8 月 1 日から 8 月 8 日まで) のデータが処理されると思いますが、そうではありません。
bash - EMR が Airflow のブートストラップに失敗しました
気流を実行する環境を提供するために bash を作成しているのですが、なぜかスクリプトもうまくいきません。
最初に EMR を提供し、その後スクリプトを実行すると、問題なく動作します。しかし、スクリプトを使用してカスタム アクティビティで実行すると機能しません。コマンドをsudoのように実行するように変更しようとしましたが、まだ機能していません。
これがコードエラーです。
マスター ノードからの stderr。
airflow - Airflow の再起動は現在実行中のジョブに影響しますか?
これはありふれた質問のように思えますが、念のために言うと、現在実行中のジョブで気流サービスを再起動すると、どのような影響がありますか?