問題タブ [luigi]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
810 参照

python - ルイージでtsvファイルをローカルファイルシステムからS3に移動する

次のプログラムは何も出力せず、エラーもスローしません。クラスのrun()メソッドの形で何か不足していますか?to_S3()

クラスのoutput()メソッドは次のとおりです。Mysql_to_tsv()

タスクの正しいクラス実装を手伝ってください。

0 投票する
1 に答える
322 参照

luigi - luigi を使用して Hadoop ジョブ パイプラインを構築する場合、タスクをデバッグするにはどうすればよいですか?

ルイージを Hadoop ジョブ パイプラインとして使用しています。サンプルとドキュメントを読みましたが、ジョブを Hadoop サーバーにプッシュする前にスクリプトをデバッグする方法が見つかりませんか?

具体的には、大量のデータ セットを処理する必要があり、実行時間が長いため、実際のデータ セットでジョブを実行するよりも、小さなテスト データ セットでジョブをテストすることを好みます。

0 投票する
2 に答える
3550 参照

python - ルイージは例外を伝播したり、結果を返したりできますか?

ルイージを使用してパイプラインを起動しています。簡単な例を見てみましょう

myTaskここで、実行中に例外が発生したとしましょう。私が持つことができるのは、例外を示す luigi からのログだけです。

ルイージがそれを伝播したり、少なくともfailureステータスを返す方法はありますか?

その後、その状態に応じてプログラムを反応させることができます。

ありがとう。

EDIT 結果を保存するときに、ルイージの出力がデータベースをターゲットにしていることを指定するのを忘れました。例外が発生した場合、結果は保存されませんが、例外は luigi に伝播されません。ルイージにこれを持つオプションがあるかどうか疑問に思っていました。

0 投票する
2 に答える
1189 参照

python - Luigi Visualiser で完了したパイプラインを永続化する

視覚的な ETL ツールから Luigi への夜間データ パイプラインの移植を開始しています。ジョブのステータスを確認するためのビジュアライザーがあることを本当に楽しんでいます。MasterEndただし、最後のジョブ ( という名前) が完了してから数分後に、 を除くすべてのノードがグラフから消えることに気付きましたMasterEnd。その日/過去の日のすべてが完了したことを確認したいので、これは少し不便です。

さらに、ビジュアライザーで最後のジョブの URL に直接アクセスすると、実行された履歴が見つかりませんCouldn't find task MasterEnd(date=2015-09-17, base_url=http://aws.east.com/, log_dir=/home/ubuntu/logs/)。今朝、正常に動作することを確認しました。

注意すべきことの 1 つは、このパイプラインを 15 分ごとに実行して S3 上のファイルをチェックする cron があることです。存在する場合は実行され、存在しない場合は停止します。それが原因でビジュアライザーからタスクが削除されているかどうかはわかりません。実行ごとに新しいものが生成されることに気付きましたPIDが、ドキュメントで 1 日あたり 1 つの PID を保持する方法が見つかりませんでした。

それで、私の質問:ビジュアライザーで当日の完成したグラフを保持することは可能ですか? また、過去に何が起こったかを確認する方法はありますか?

すべての助けに感謝します

0 投票する
0 に答える
1199 参照

python - python luigi が終了コード -11 で予期せず死亡しました

luigi1人のワーカーをタスクに配置すると、完全に正常に機能するデータパイプラインがあります。ただし、1 つ以上のワーカーを配置すると、2 つの依存関係のある段階で (予期せず終了コード -11 で) 終了します。コードはかなり複雑なので、最小限の例を挙げるのは難しいでしょう。問題の要点は、私が次のことをやっているということですgensim:

  1. いくつかのテキストから辞書を作成します。
  2. 上記のテキストと辞書からコーパスを構築する ((1) が必要)。
  3. コーパスと辞書から LDA モデルをトレーニングします ((1) と (2) が必要です)。

何らかの理由で、(1) と (2) が既に完了しているにもかかわらず、複数のワーカーを配置するたびにステップ (3) がクラッシュします...

どんな助けでも大歓迎です!

編集:これはログ情報の例です。TrainLDA はタスク (3) です。その後、TrainLDA を必要とするタスクが 2 つあります。以前のタスクはすべて正常に終了しました。...出力が読みやすくなるように、TrainLDA の引数を置き換えました。追加情報は、print何が起こっているのかを知るのに役立つように記載したものです。

DEB

0 投票する
1 に答える
8540 参照

python - S3から始まるルイージパイプライン

私の初期ファイルはAWS S3. 誰かがこれをどのように設定する必要があるか教えてもらえますLuigi Taskか?

ドキュメントを確認して見つけましluigi.S3たが、それをどうするかが明確ではありません。次に、Webで検索して、mortar-luigiルイージの上部からのリンクと実装のみを取得しました。

アップデート

@matagus に提供された例に従った後 (私~/.botoも提案どおりにファイルを作成しました):

実行しても何も起こらない

ご覧のとおり、メッセージDoing something...は印刷されません。なにが問題ですか?

0 投票する
1 に答える
1071 参照

python - Luigi で複数のワーカーを使用して特定のタスクを同時に実行しないようにする方法

私は Luigi を使用して、matplotlib によるプロットを含むデータ分析タスクを構築しています。

matplotlib プロットを同時に実行すると問題が発生し、何らかの理由でタスクから途中で何もせずに戻るようです。(私が間違っているかもしれませんが、これはmatplotlibの問題のようです。)

この問題を解決するには、複数のワーカーで他のタスクを実行しながら、そのプロット タスクのみに対して複数のワーカーを同時に実行することを避けたいと考えています。どうやってやるの?

0 投票する
0 に答える
1070 参照

python - インストールされている Python モジュールをインポートできない (Luigi タスクの場合)

このようなこのエラーに関して SO のすべてのフォーラムを調べましたが、問題を解決できないようです。

モジュールをインポートしようとしていusますが、Luigi タスクの実行時に同じインポート エラーが発生し続けました。ImportError: No module named us

アンインストールして再インストールするだけでなく、強制的にインストールしようとしましpip install us —ignore-installedた。

以下はの出力ですpip show us

何かご意見は?