ipython parallel と LoadBalancedView を使用して、多くのモデルを並行してトレーニングしたいと考えています。
ただし、各タスクが完了した後、特定のノードが別のノード (タスクアレンジャーと呼びましょう) と「チェック」して、続行する必要があることを確認する必要があるという制約が必要です。
これは実際には DAG ではなく、クライアントが別のタスク アレンジャー ノードと通信して、タスク完了のタイミングと順序の両方を制御するだけです。
また、ドロップアウトしたノードが失敗した場合に、そのタスクが他のノードに引き継がれるようにする必要もあります。
iPython 並列でこれを行うにはどうすればよいですか?
編集: 明確にするために、タスクを処理し、結果を報告し、ソケット通信などを処理する iPython 並列の機能が好きですが、マスタープロセスとプロセスから選択したときに、個々のタスクを個々のマシンに与える力が本質的に必要です。完了または与えられたタスクを追加します。
編集 #2: ああ、おそらくテーブルをロックしてから、このテーブル内のタスクの順序を手動で変更できます(?)。ロックにより、クライアントがそれ以上のタスクを取得するのを阻止できます (クライアントは待機する必要があります)。タスク自体に基づいて、好きなように順序を変更できます。