ipython-parallel - ipcluster - 約 110 を超える ipengine を起動できません - または、それらのいくつかが停止する可能性があります

Question

要求したすべての ipengine を ipcluster で開始するのに苦労しています。ある種のタイムアウトの問題のようです。192 個のプロセッサを搭載した Linux クラスターで IPython 2.0 を使用しています。ローカルの ipcontroller を実行し、SSH を使用して 12 個のノードで ipengines を開始します。これは構成の問題ではありません (少なくとも私はそうは思いません)。約 110 個の ipengine を実行しても問題はありません。より多くの量を試してみると、起動中にそれらのいくつかが死んでいるように見えます. ipcluster は、すべてのエンジンが開始したことを報告します。私が見つけることができる唯一の問題の兆候 (要求されたすべてのエンジンを使用していないことを除く) は、いくつかの ipengine ログで次のとおりです。

2014-06-20 16:42:13.302 [IPEngineApp] Loading url_file u'.ipython/profile_ssh/security/ipcontroller-engine.json'
2014-06-20 16:42:13.335 [IPEngineApp] Registering with controller at tcp://10.1.0.253:55576
2014-06-20 16:42:13.429 [IPEngineApp] Starting to monitor the heartbeat signal from the hub every 3010 ms.
2014-06-20 16:42:13.434 [IPEngineApp] Using existing profile dir: u'.ipython/profile_ssh'
2014-06-20 16:42:13.436 [IPEngineApp] Completed registration with id 49
2014-06-20 16:42:25.472 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (1 time(s) in a row).
2014-06-20 18:09:12.782 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (1 time(s) in a row).
2014-06-20 19:14:22.760 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (1 time(s) in a row).
2014-06-20 20:00:34.969 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (1 time(s) in a row).

私はいくつかの知恵を見つけることができるかどうかを確認するためにいくつかのグーグルを行いました. 作者はそれが一種のタイムアウトだと考えているようです。

また、IPClusterStart.early_shutdown と IPClusterEngines.early_shutdown の時間を 3 倍 (デフォルトの 30 秒ではなく 90 秒) にしてみましたが、うまくいきませんでした。

事前に、クラスターを最大限に活用するためのヒントをありがとうございます。

ipython-parallel - ipcluster - 約 110 を超える ipengine を起動できません - または、それらのいくつかが停止する可能性があります

1 に答える 1

Related

Reference