問題タブ [airflow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - ガンコーンが原因で気流の起動に失敗しました
このエラーは gunicorn が利用できないことが原因であることがわかったので、os.py にすべてのパスを出力します。
ガンコーンがこのパスに存在する間
私のenvに何か問題がありますか?
apache-spark - Airflow クラスターで spark submit を使用して Graphite と Grafana を構成するにはどうすればよいですか?
最近Airflow
、タスクを実行するように構成しました。タスクを実行するマスター ノードと 2 つのワーカーがあります。と を使用してクラスターを監視したいと考えていGraphite
ますGrafana
。私がしたことは、マスターノードにインストールGraphite
して、単純な bash コマンドでテストすることだけでした。ここで、タスクの実行中にクラスターGrafana
を監視したいと考えています。Airflow
私はそれを作成 metrics.properties
して配置しましたspark/conf
:
そして、次のフラグを my に追加しましたspark-submit
:
開いた後に見つけることができるのGraphite ui
はGraphite->carbon->agents->cluster1-a
、いくつかのグラフだけです。私のAirflow
クラスターではなく、何か他のものを監視していると確信しています。
多分私はインストールする必要がありgrafana-spark-dashboards
ますか?しかし、それはすべてについてYARN
であり、私はAirflow
管理システムを使用しています。
またはブロックをに追加しCarbon
ますstorage-schemas.conf
か?
このブロックはGraphite
ダッシュボードに表示されます:
どのメトリクスSpark
が に送信されるかをどうにかして確認できますGraphite
か?
postgresql - ほぼリアルタイムの ETL アーキテクチャに適したツール
プライマリ データ ストア (および「Universal Source of Truth」) が Postgres であるシステムがありますが、そのデータをリアルタイムと夜間の両方で集約してレプリケートします。現在、Elasticsearch、Redis、Redshift (夜間のみ) にレプリケートしており、Neo4j も追加しています。
私たちの ETL パイプラインは十分に拡張されており、 AirflowやLuigiなどのツールを検討し始めていますが、最初の調査からわかることから、これらのツールはほぼ完全に一括読み込みを目的としています。
大規模なバッチ ETL プロセスと、オンザフライで大量の個別レコードのレプリケーションの両方を処理できる ETL プロセスを処理できるツールはありますか? Airflow または Luigi はこれを処理しますか?
ありがとう!
python - エアフロー「この接続は閉じられています」実行中ですが、テスト中ではありません
気流 1.7.1.3 と python 2.7 を使用しています
を使用して各タスクを個別に実行すると完全に機能するDAGを作成しました
気流テスト [myDAG] [myTask] 2016-10-14
でも、
airflow trigger_dag [myDAG]
また
気流実行 [myDAG] [myTask] 2016-10-14
どちらも「この接続は閉じられています」という SQLalchemy エラーを発生させます。
これは、SQLalchemy を介した Oracle 12 データベースへの接続であり、スクリプトで session.commit() を使用すると、このエラーが発生します。
誰かがこの違いとエラーを説明できる手がかりを持っていますか?