3

SOの素晴らしい人々、

さまざまな手順で (かさばる) データ セットを処理する必要があります。各ステップには、 mapReduce ( Discoを使用)、一般的な分散処理 ( Celeryを使用)、またはサーバーでの単純な処理が含まれます。このようなワークフローの管理に役立つワークフロー エンジン/ライブラリ/フレームワークを探しています。

私は多くのオプションを調べましたが、spiff ワークフローが最も柔軟なようですが、状態遷移時のアクションをサポートしていないようで、シングル スレッドです (したがって、並列ゲートウェイをどのように処理できるかわかりません)。

そのようなワークフロー/ジョブを管理するためのアプローチ/ツールについてアドバイスしてください。監視ツールが付属しているフレームワーク (できれば Web ベースまたはPyramidと統合できるもの) があれば、さらに良いでしょう。

前もって感謝します

4

1 に答える 1

0

バッチ データ処理タスクをパイプライン処理するために、優れたSpotify の Luigi フレームワークに基づくソリューションを使用します。そのスケジューリングおよび監視ツールは、 Tornadocentral schedulerに基づく Web サーバーです。

于 2013-11-26T14:54:14.503 に答える