問題タブ [airflow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
etl - ETL とワークフロー管理、どちらを適用するか? それらは同じように使用できますか?
クライアントのデータ パイプラインを設定中です。私は何年も分析の側で過ごしてきましたが、今は実稼働環境しかない小さなショップで働いています。最初に行ったのは、本番環境のレプリケートされたインスタンスを作成することでしたが、分析部分をより簡単にするために、一種のデータ ウェアハウスの考え方を適用したいと考えています。
私の質問は、どのツールを使用するかということになります。また、なぜですか?私は ETL 向けの Talened のようなソリューションを検討してきましたが、Airflow にも非常に興味があります。問題は、どちらが自分のニーズにより適しているかよくわからないことです。ジョブを簡単に監視および作成したい (私は Python をかなり流暢に記述しているため、Airflow ジョブの作成は問題になりません) だけでなく、データが入ってくると変換できるようにしたいと考えています。
どんな提案でも大歓迎です
python - Airflow: 別のサーバーから SSH 接続して BashOperator を実行する方法
別のサーバーに ssh し、Airbnb の Airflow を使用して BashOperator を実行する方法はありますか? Airflow で hive sql コマンドを実行しようとしていますが、hive シェルを実行するには別のボックスに SSH 接続する必要があります。私のタスクは次のようになります。
- server1 への SSH
- ハイブシェルを起動
- ハイブコマンドを実行する
ありがとう!
high-availability - 高可用性のためのエアフロー設定
高可用性で apache airflow (正式には airbnb の airflow として知られている) スケジューラをデプロイする方法は?
明らかに高可用性構成でデプロイする必要があるバックエンド DB または RabbitMQ について質問しているわけではありません。
私の主な焦点はスケジューラーです - 何か特別なことをする必要がありますか?
python - ImportError: 気流の実行時に mako.util という名前のモジュールがありません
ここのチュートリアルに従おうとしています: http://pythonhosted.org/airflow/tutorial.html
しかし、私はMacを使用しているので、を介してpythonをインストールする必要がbrew
ありpip
ましたairflow
. ただし、それもうまくいかなかったので、virtualenv
インストールしようとしたものを作成しようとしましたairflow
が、それでもこれが表示されますImportError: No module named mako.util
それが問題かどうかはわかりませんが、ここに私のセットアップがあります:
mako.util
このモジュールをインストールするにはどうすればよいですか?
python - エアフローにおける DAG レベルのサービス レベル アグリーメント
現在、SLA は単純な方法でタスクに実装されていることを知っています。
sla=datetime.timedelta(hours=1)
タスクインスタンス内で、dag 内のすべてのタスクが指定された timedelta 内に終了しない場合にアラートが送信される、気流に DAG レベルの SLA を実装する方法があるのではないかと考えていました。
よろしく、 アリ
python - AirFlow を使用して Python ファイルのフォルダーを実行する方法は?
Pythonファイルのフォルダー内に一連のPythonタスクがあります:file1.py、file2.py、...
Airflow のドキュメントを読みましたが、DAG で Python ファイルのフォルダーとファイル名を指定する方法がわかりません。
これらの python ファイルを実行したいと思います (Python Operator による Python 関数ではありません)。
タスク 1: file1.py を実行します (いくつかのインポート パッケージを使用)
タスク 2: file2.py を実行します (他のインポート パッケージを使用)
それは役に立ちます。ありがとうございます。それでは、お元気で
python - airflow trigger_dag 実行日が翌日になっているのはなぜですか?
最近、私はエアフローを非常に多くテストしましたがexecution_date
、実行時に1 つの問題がありましたairflow trigger_dag <my-dag>
。
ここexecution_date
から、私たちが最初に考えることではないことを学びました:
Airflow は、ETL ニーズのソリューションとして開発されました。ETL の世界では、通常、データを要約します。したがって、2016 年 2 月 19 日のデータを要約したい場合は、2016 年 2 月 20 日午前 0 時 GMT に行います。これは、2016 年 2 月 19 日のすべてのデータが利用可能になった直後です。
上記のコードは、私の毎日のワークフローの開始部分です。最初のタスクは、実際の作業の前にさらに 5 分待機する TimeDeltaSensor です。つまり、これは、私の DAG が でトリガーされることを意味し2016-09-09T00:05:00
ます2016-09-10T00:05:00
。
Web UI では、 のようなものが表示され、scheduled__2016-09-20T00:00:00
タスクは で実行されます。これは、モデル2016-09-21T00:00:00
によると妥当と思われます。ETL
2016-09-20T00:10:00
ただし、ある日、私の DAGは不明な理由でトリガーされないので、手動でトリガーし2016-09-21T00:15:00
ます。
これは私が望んでいるものではあり2016-09-20T00:15:00
ません。翌日ではなく実行したいのですが、通過しようとしexecution_date
まし--conf '{"execution_date": "2016-09-20"}'
たが、うまくいきません。
この問題にどのように対処すればよいですか?