問題タブ [airflow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
808 参照

etl - ETL とワークフロー管理、どちらを適用するか? それらは同じように使用できますか?

クライアントのデータ パイプラインを設定中です。私は何年も分析の側で過ごしてきましたが、今は実稼働環境しかない小さなショップで働いています。最初に行ったのは、本番環境のレプリケートされたインスタンスを作成することでしたが、分析部分をより簡単にするために、一種のデータ ウェアハウスの考え方を適用したいと考えています。

私の質問は、どのツールを使用するかということになります。また、なぜですか?私は ETL 向けの Talened のようなソリューションを検討してきましたが、Airflow にも非常に興味があります。問題は、どちらが自分のニーズにより適しているかよくわからないことです。ジョブを簡単に監視および作成したい (私は Python をかなり流暢に記述しているため、Airflow ジョブの作成は問題になりません) だけでなく、データが入ってくると変換できるようにしたいと考えています。

どんな提案でも大歓迎です

0 投票する
3 に答える
42022 参照

python - Airflow: 別のサーバーから SSH 接続して BashOperator を実行する方法

別のサーバーに ssh し、Airbnb の Airflow を使用して BashOperator を実行する方法はありますか? Airflow で hive sql コマンドを実行しようとしていますが、hive シェルを実行するには別のボックスに SSH 接続する必要があります。私のタスクは次のようになります。

  1. server1 への SSH
  2. ハイブシェルを起動
  3. ハイブコマンドを実行する

ありがとう!

0 投票する
2 に答える
7437 参照

high-availability - 高可用性のためのエアフロー設定

高可用性で apache airflow (正式には airbnb の airflow として知られている) スケジューラをデプロイする方法は?

明らかに高可用性構成でデプロイする必要があるバックエンド DB または RabbitMQ について質問しているわけではありません。

私の主な焦点はスケジューラーです - 何か特別なことをする必要がありますか?

0 投票する
1 に答える
1183 参照

python - ImportError: 気流の実行時に mako.util という名前のモジュールがありません

ここのチュートリアルに従おうとしています: http://pythonhosted.org/airflow/tutorial.html

しかし、私はMacを使用しているので、を介してpythonをインストールする必要がbrewありpipましたairflow. ただし、それもうまくいかなかったので、virtualenvインストールしようとしたものを作成しようとしましたairflowが、それでもこれが表示されますImportError: No module named mako.util

それが問題かどうかはわかりませんが、ここに私のセットアップがあります:

mako.utilこのモジュールをインストールするにはどうすればよいですか?

0 投票する
0 に答える
1890 参照

python - エアフローにおける DAG レベルのサービス レベル アグリーメント

現在、SLA は単純な方法でタスクに実装されていることを知っています。

sla=datetime.timedelta(hours=1)

タスクインスタンス内で、dag 内のすべてのタスクが指定された timedelta 内に終了しない場合にアラートが送信される、気流に DAG レベルの SLA を実装する方法があるのではないかと考えていました。

よろしく、 アリ

0 投票する
3 に答える
27278 参照

python - AirFlow を使用して Python ファイルのフォルダーを実行する方法は?

Pythonファイルのフォルダー内に一連のPythonタスクがあります:file1.py、file2.py、...

Airflow のドキュメントを読みましたが、DAG で Python ファイルのフォルダーとファイル名を指定する方法がわかりません。

これらの python ファイルを実行したいと思います (Python Operator による Python 関数ではありません)。

タスク 1: file1.py を実行します (いくつかのインポート パッケージを使用)

タスク 2: file2.py を実行します (他のインポート パッケージを使用)

それは役に立ちます。ありがとうございます。それでは、お元気で

0 投票する
2 に答える
23651 参照

python - airflow trigger_dag 実行日が翌日になっているのはなぜですか?

最近、私はエアフローを非常に多くテストしましたがexecution_date、実行時に1 つの問題がありましたairflow trigger_dag <my-dag>

ここexecution_dateから、私たちが最初に考えることではないことを学びました:

Airflow は、ETL ニーズのソリューションとして開発されました。ETL の世界では、通常、データを要約します。したがって、2016 年 2 月 19 日のデータを要約したい場合は、2016 年 2 月 20 日午前 0 時 GMT に行います。これは、2016 年 2 月 19 日のすべてのデータが利用可能になった直後です。

上記のコードは、私の毎日のワークフローの開始部分です。最初のタスクは、実際の作業の前にさらに 5 分待機する TimeDeltaSensor です。つまり、これは、私の DAG が でトリガーされることを意味し2016-09-09T00:05:00ます2016-09-10T00:05:00

Web UI では、 のようなものが表示され、scheduled__2016-09-20T00:00:00タスクは で実行されます。これは、モデル2016-09-21T00:00:00によると妥当と思われます。ETL

2016-09-20T00:10:00ただし、ある日、私の DAGは不明な理由でトリガーされないので、手動でトリガーし2016-09-21T00:15:00ます。

これは私が望んでいるものではあり2016-09-20T00:15:00ません。翌日ではなく実行したいのですが、通過しようとしexecution_dateまし--conf '{"execution_date": "2016-09-20"}'たが、うまくいきません。

この問題にどのように対処すればよいですか?