1

非常に複雑な機械学習の問題を並列化するために pp を使用しているときに、さまざまな品質のサードパーティ ライブラリにかなり広範囲に依存する必要があることに気付きました。特に、さまざまなデータセットで集中的に使用すると、かなりの量のエッジ ケース クラッシュが発生します。最終的にはこれらを解決する必要がありますが、短期的には自分のバグと彼らのバグの両方を修正しようとするのは多すぎます - そしてこのライブラリは本当に最高のものです.

私の質問は次のとおりです: pp でローカル ワーカー プロセスの適切な失敗を許可するために使用される確立されたパターンはありますか?

私が見ているオプションは次のとおりです。

  1. ローカル ワーカー プロセスは一切使用せず、REMOTE ワーカーのみを使用し、ソケット タイムアウトに依存します。
  2. シェルはすべて、別のプロセスとしてラップして実行するセカンダリ python スクリプトに変換し、終了コードを使用してクラッシュをチェックします。これはおそらく、セグメンテーション違反以外の障害の場合を防ぐために、タイムアウトと組み合わせる必要があります。

ここで何か不足していますか?私は pp.py を見てきましたが、私が知る限り、ワーカープロセスに終了検出はありません。

4

0 に答える 0