問題タブ [luigi]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

335 問題

0 投票する

1 に答える

1722 参照

luigi - ルイージは、require メソッドにリストされているすべてのタスクを完了できません

次の依存構造を持つタスクがあるとします

子タスクはそれ自体で正常に実行されます。親は、すべての子タスクの完了ステータスを正しくチェックします。ただし、最初の子タスクが終了すると、スケジューラは親タスクを終了済みとしてマークします。次のメッセージが表示されます。

luigi

2016-04-21T06:42:04.983

0 投票する

1 に答える

2679 参照

python - Pythonセロリでルイージを使用できますか

Web アプリケーションにセロリを使用しています。セロリは親タスクを実行し、さらにタスクのパイプラインを実行します

セロリの問題点

親タスクのステータスを確認するために luigi で取得した依存関係グラフとビジュアライザーを取得できません
Celery は、失敗したパイプラインを再開し、失敗した場所から開始するメカニズムを提供しません。

ルイージから簡単に入手できるこれらの 2 つのこと。

だから私は、セロリが親タスクを実行したら、そのタスク内でルイージパイプラインを実行すると考えていました。

つまり、 queuesize に基づいてセロリワーカーを自動スケーリングする必要があります。それは複数のマシンにまたがるルイージワーカーに影響しますか??

2016-05-05T00:56:38.253

0 投票する

1 に答える

1672 参照

python - ルイージはファイルを S3 に直接書き込みます

Luigi でデータパイプラインを作成しており、処理されたデータを S3 バケットに直接書き込もうとしています。私が使用したコードは次のとおりです。

スクリプトを実行した後、エラーが発生しました:

ファイルを S3 バケットに直接書き込むことはできますか?

python amazon-s3 luigi

2016-05-12T14:14:03.117

0 投票する

0 に答える

289 参照

python-2.7 - HiveThriftContext の get_partitions_by_filter コマンドの構文は何ですか?

ゴール

ハイブテーブルに部分的に指定されたパーティションが存在するかどうかを確認しようとしています。

詳細

sourceとdateの 2 つのパーティションキーを持つテーブルがあります。dateタスクを実行する前に、特定の(が指定されていない)のパーティションが存在するかどうかを確認する必要がsourceあります。

試み

これは、luigi の組み込みの Hive パーティションターゲットとデフォルトのクライアントを使用して簡単に実行できます。

しかし、デフォルトのクライアントは、Hive のコマンドラインインスタンスをスピンアップしてクエリを実行しているため、非常に低速です。そこで、デフォルトのクライアントを中古のクライアントに交換しようとしたところ、次のことが起こりました。

2 つのクライアントは、部分的に指定されたパーティションを異なる方法で解釈しているようです。

MetastoreClient を継承し、過去に必要だったいくつかの機能を追加する独自のクライアントを既に作成しているので、独自の設計の部分的に指定されたパーティションチェックを追加してもかまいません。そして、クライアントには必要な機能があるようです:

get_partitions_by_filterコマンドはまさに私が望んでいることを実行するように見えますが、それが期待する型の自動生成されたリストを除いて、どこにもドキュメントが見つかりません。そして、より単純な関数で同様の問題に遭遇しました。存在することがわかっているパーティションを完全に指定すると、それらを取得get_partitionまたはget_partition_by_name検索できません。これは、正しい形式で引数を提供していないためだと確信していますが、正しい形式が何であるかがわからず、推測に関して私の忍耐力が尽きました。

HiveThriftContext の get_partitions_by_filter コマンドの構文は何ですか?

フォローアップの質問: どうやってこれを理解しましたか?

python-2.7 hive thrift-protocol luigi

2016-06-02T16:40:15.313

0 投票する

1 に答える

198 参照

python - ルイージで自動インスタンス化?

ではluigi.Task.run、オブジェクトをファイル/データベース/などにシリアライズする必要があります。

ただし、便宜上、pd.read_csv(...)タスクを再利用するときに同じインスタンス化手順を記述する必要があるため、スニペットをスキップしたいと思います。

このようにルイージで自動的にインスタンス化する方法はありますか?:

python luigi

2016-06-03T07:11:50.747

0 投票する

2 に答える

449 参照

subprocess - エラー: luigi で例外がキャッチされませんでした (TypeError: None ではなく、文字列またはバッファーである必要があります)

/triggering Luigi Task を Python コードから呼び出しているときに問題が発生しました。

基本的に、コマンドラインで行うのと同じように luigi タスクをトリガーする必要がありますが、Python コードから
シェルコマンドを使用して luigi タスクを呼び出すために supbrocess.popen を使用しています
test.py という名前のテストコードがあり、モジュール task_scheduler.py にテストクラスがあり、luigi タスクが含まれています (両方のモジュールが同じ場所/ディレクトリにあります)。

しかし、私はエラーが発生しています

誰かが私がここで間違っていることを教えてもらえますか? シェルプロンプトを使用すると、コマンド「python -m luigi --module task_scheduler TestClass」は完全に機能します

subprocess luigi

2016-06-14T18:43:56.123

1 2 3 4 5 6 7 8 9 10

問題タブ [luigi]

luigi - ルイージは、require メソッドにリストされているすべてのタスクを完了できません

python - Pythonセロリでルイージを使用できますか

python - ルイージはファイルを S3 に直接書き込みます

python-2.7 - HiveThriftContext の get_partitions_by_filter コマンドの構文は何ですか?

ゴール

詳細

試み

python - ルイージで自動インスタンス化?

subprocess - エラー: luigi で例外がキャッチされませんでした (TypeError: None ではなく、文字列またはバッファーである必要があります)

Reference