問題タブ [luigi]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - ルイージでtsvファイルをローカルファイルシステムからS3に移動する
次のプログラムは何も出力せず、エラーもスローしません。クラスのrun()
メソッドの形で何か不足していますか?to_S3()
クラスのoutput()
メソッドは次のとおりです。Mysql_to_tsv()
タスクの正しいクラス実装を手伝ってください。
luigi - luigi を使用して Hadoop ジョブ パイプラインを構築する場合、タスクをデバッグするにはどうすればよいですか?
ルイージを Hadoop ジョブ パイプラインとして使用しています。サンプルとドキュメントを読みましたが、ジョブを Hadoop サーバーにプッシュする前にスクリプトをデバッグする方法が見つかりませんか?
具体的には、大量のデータ セットを処理する必要があり、実行時間が長いため、実際のデータ セットでジョブを実行するよりも、小さなテスト データ セットでジョブをテストすることを好みます。
python - ルイージは例外を伝播したり、結果を返したりできますか?
ルイージを使用してパイプラインを起動しています。簡単な例を見てみましょう
myTask
ここで、実行中に例外が発生したとしましょう。私が持つことができるのは、例外を示す luigi からのログだけです。
ルイージがそれを伝播したり、少なくともfailure
ステータスを返す方法はありますか?
その後、その状態に応じてプログラムを反応させることができます。
ありがとう。
EDIT 結果を保存するときに、ルイージの出力がデータベースをターゲットにしていることを指定するのを忘れました。例外が発生した場合、結果は保存されませんが、例外は luigi に伝播されません。ルイージにこれを持つオプションがあるかどうか疑問に思っていました。
python - Luigi Visualiser で完了したパイプラインを永続化する
視覚的な ETL ツールから Luigi への夜間データ パイプラインの移植を開始しています。ジョブのステータスを確認するためのビジュアライザーがあることを本当に楽しんでいます。MasterEnd
ただし、最後のジョブ ( という名前) が完了してから数分後に、 を除くすべてのノードがグラフから消えることに気付きましたMasterEnd
。その日/過去の日のすべてが完了したことを確認したいので、これは少し不便です。
さらに、ビジュアライザーで最後のジョブの URL に直接アクセスすると、実行された履歴が見つかりませんCouldn't find task MasterEnd(date=2015-09-17, base_url=http://aws.east.com/, log_dir=/home/ubuntu/logs/)
。今朝、正常に動作することを確認しました。
注意すべきことの 1 つは、このパイプラインを 15 分ごとに実行して S3 上のファイルをチェックする cron があることです。存在する場合は実行され、存在しない場合は停止します。それが原因でビジュアライザーからタスクが削除されているかどうかはわかりません。実行ごとに新しいものが生成されることに気付きましたPID
が、ドキュメントで 1 日あたり 1 つの PID を保持する方法が見つかりませんでした。
それで、私の質問:ビジュアライザーで当日の完成したグラフを保持することは可能ですか? また、過去に何が起こったかを確認する方法はありますか?
すべての助けに感謝します
python - python luigi が終了コード -11 で予期せず死亡しました
luigi
1人のワーカーをタスクに配置すると、完全に正常に機能するデータパイプラインがあります。ただし、1 つ以上のワーカーを配置すると、2 つの依存関係のある段階で (予期せず終了コード -11 で) 終了します。コードはかなり複雑なので、最小限の例を挙げるのは難しいでしょう。問題の要点は、私が次のことをやっているということですgensim
:
- いくつかのテキストから辞書を作成します。
- 上記のテキストと辞書からコーパスを構築する ((1) が必要)。
- コーパスと辞書から LDA モデルをトレーニングします ((1) と (2) が必要です)。
何らかの理由で、(1) と (2) が既に完了しているにもかかわらず、複数のワーカーを配置するたびにステップ (3) がクラッシュします...
どんな助けでも大歓迎です!
編集:これはログ情報の例です。TrainLDA はタスク (3) です。その後、TrainLDA を必要とするタスクが 2 つあります。以前のタスクはすべて正常に終了しました。...
出力が読みやすくなるように、TrainLDA の引数を置き換えました。追加情報は、print
何が起こっているのかを知るのに役立つように記載したものです。
DEB
python - S3から始まるルイージパイプライン
私の初期ファイルはAWS S3
. 誰かがこれをどのように設定する必要があるか教えてもらえますLuigi Task
か?
ドキュメントを確認して見つけましluigi.S3
たが、それをどうするかが明確ではありません。次に、Webで検索して、mortar-luigi
ルイージの上部からのリンクと実装のみを取得しました。
アップデート
@matagus に提供された例に従った後 (私~/.boto
も提案どおりにファイルを作成しました):
実行しても何も起こらない
ご覧のとおり、メッセージDoing something...
は印刷されません。なにが問題ですか?
python - Luigi で複数のワーカーを使用して特定のタスクを同時に実行しないようにする方法
私は Luigi を使用して、matplotlib によるプロットを含むデータ分析タスクを構築しています。
matplotlib プロットを同時に実行すると問題が発生し、何らかの理由でタスクから途中で何もせずに戻るようです。(私が間違っているかもしれませんが、これはmatplotlibの問題のようです。)
この問題を解決するには、複数のワーカーで他のタスクを実行しながら、そのプロット タスクのみに対して複数のワーカーを同時に実行することを避けたいと考えています。どうやってやるの?
python - インストールされている Python モジュールをインポートできない (Luigi タスクの場合)
このようなこのエラーに関して SO のすべてのフォーラムを調べましたが、問題を解決できないようです。
モジュールをインポートしようとしていus
ますが、Luigi タスクの実行時に同じインポート エラーが発生し続けました。ImportError: No module named us
アンインストールして再インストールするだけでなく、強制的にインストールしようとしましpip install us —ignore-installed
た。
以下はの出力ですpip show us
何かご意見は?