問題タブ [blcr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c - X11アプリケーションのチェックポイントと再起動
X11アプリケーションをチェックポイントして再起動したい。BLCR(Berkeley Lab Checkpoint / Restart(BLCR))ツールを使用しています。
BLCRは、(変更なしで)X-Serverへの接続を再開することはできません。介入ライブラリを使用して、すべてのXlib関数呼び出しとそのパラメーターをテキストファイルに記録しました。
ここで、このログに記録された関数呼び出しを再利用できるようにしたいと思います。それらをテキストファイルに保存し、再起動手順中にそれらを解析/解釈するよりも良い方法はありますか?
チェックポイントされたアプリケーションは、ログに記録された通話をやり直す必要がありますが、これは最初に聞こえたほど簡単ではないようです。
mpi - BLCR を使用したトルク チェックポイント MPI ジョブに関する質問
トルクを使用して MPI ジョブのチェックポイントを設定しようとしていますが、トルクは単一のノードで実行されているジョブしか処理できないようです。コードを確認したところ、qhold を使用してジョブのチェックポイントを設定すると、qhold は PBS_BATCH_HoldJob 要求を pbs サーバーに送信し、pbs サーバーはこの要求をマスター ホストに中継し、マスター ホストは BLCR を使用して自身で実行されているジョブ プロセスをチェックポイントしますが、そうではありません。要求を姉妹ノードに送信するため、MPI ジョブはトルクでチェックポイントできないようです。
もう 1 つの問題は、チェックポイントが成功した後 (qhold によって報告される)、トルクがプロセスを強制終了するためにマスター ホストのプロセスにシグナル 15 を送信し、トルクがチェックポイント ファイルを pbs_server にコピーし、すべてのファイルをローカルに削除することです。qrls を使用してこのジョブを再起動すると、スケジューラはこのジョブに新しいノードを割り当て、チェックポイント ファイルを新しいノードにコピーしてから、チェックポイント ファイルを介してジョブを再起動すると、問題が発生します。
トルクがすべてのノードで MPI ジョブのプロセスをチェックポイントできると仮定します。通常、私たちのジョブは巨大なメモリ チャンクを使用するため、チェックポイント ファイルは非常に大きくなりますが、pbs サーバーにはチェックポイント ファイルを格納するのに十分な大きさのディスクがありません。 .
私たちの環境では、MPI ジョブが開始される前に、別のクラスターから大規模なメタデータをコンピューティング用の MPI ジョブに割り当てられたノードに直接プルし、チェックポイント/再起動後に、ジョブ プロセスがいくつかの異なるノードで再開される可能性があります。データが欠落している可能性があります。
MPI ジョブのチェックポイントの方法を教えてくれる人がいて、私の質問に答えることができ、トルク コードを変更する必要がある場合は、私もそれをやりたいです。
ありがとう。
torque - 静的にリンクされた実行可能ファイルを使用した BLCR チェックポイントのトルク
Berkeley Lab チェックポイント (BLCR) スキームを使用してトルク ジョブ スケジューラによって処理されているジョブをチェックポイントしようとしていますが、コンパイル時に実行可能ファイルが静的にリンクされていると思われるため、cr_run 'my_exec' を試行するとエラーがスローされます。送信スクリプトは次のようになります (簡略化された疑似バージョン):
私は動的にリンクされたバイナリ (主に自分で書いたコードから構築された実行可能ファイル) を使用してチェックポイント ジョブを成功させたので、これを行う方法は既に知っています。問題は、実行しようとしている実行可能ファイルが事前にコンパイルされていて、ソース コードがないか、またはこれが問題にならないことです。
いくつかのアドバイスを提供しているように思われるドキュメントをここ(4.2 を参照) で見つけましたが、ここで提案を解読してテストする前に、動的ではない実行可能ファイルから実行されるチェックポイント ジョブの経験があるかどうかを確認する価値があると思いました。コンパイル時にリンクされます。
補足として、コードには内部チェックポイントがありません。また、29 時間スリープするよりも丁寧なチェックポイントの方法を使用しています。これを含めたのは、スクリプトが煩雑にならず、読みやすくするためです。
raspberry-pi - RPi BLCR/MPICH チェックポイント/再起動の問題
何週間も問題を調査した後、コンテキストの hexdump からいくつかの情報を見つけました (C/R エラーのないものを取得しました (この質問の最後にリンクがありますが、再起動は成功しません)) (context-num0-0- 0、ドロップボックス)
チェックポインティングが機能しているようです。
以前、C/R 問題についていくつか質問しました。
ARMv6 mpiexec チェックポイント エラー (RPi)で失敗する前に、チェックポイント後に mpi スレーブを再起動します。
私も解決策を見つけようとし、これに従いました:
MPICH2 Checkpointing Error with BLCR
enter link description here
チャンスは無い。私は本当にゆっくりと絶望します...
HPC の専門家の何人かがここにいると確信しています。あなたが私を助けてくれるか、なぜうまくいかないのか(またはうまくいかない理由、おそらく私がどこか間違っているため)を説明していただければ、それは私にとって最高のクリスマスプレゼントです.
[このプログラムで取得したチェックポイント]
test2.c
私の問題はここのどこかにあると思います:
ルート 4693 0.0 0.7 9804 3204 ? Ss 09:29 0:00 _ sshd: pi [priv]
pi 4700 0.0 0.3 9804 1528 ? S 09:29 0:00 _ sshd: pi@pts/0
更新:(ログ)
hydra_pmi_proxy と test2 がゾンビのようです
arm - チェックポイント/再起動をサポートする Raspberry Pi 上の OpenMPI
簡単な質問があります。Raspberry PI上の OpenMPI、つまり ARM はチェックポイント/再起動機能を提供しますか? BLCR で MPICH を使用していますが、どのアプリケーションも再起動できません。(MPICH と BLCR は自分で作成したものです) というわけで、OpenMPI で試してみます。(はい、MPICH 問題に対する回答が得られないため、OpenMPI を意味します) openmpi-bin、openmpi-common、openmpi-doc パッケージはありますが、利用できる openmpi-checkpoint はありません。
よろしくお願いします。明けましておめでとうございます。
linker - リンクされたファイルをリンカーへの入力として使用する
Linux には、静的にリンクされたファイルを入力として使用する方法がありますか。具体的には、ソース コードにアクセスできない静的にリンクされたプログラムに BLCR libcr ライブラリを追加したいと考えています。