scrun
コマンドに checkpoint
オプションを指定します:
scrun -checkpoint=interval a.out
a.out
はプログラムの名前で、
interval
でチェックポイントの周期を
[1-9][0-9]*[sSmMhHdD]
の形式で指定します。sSmMhHdD
は単位を指定するサフィックスであり、
それぞれ s/S … 秒、 m/M … 分、 h/H … 時間、 d/D … 日を意味します。
省略されると「分」と解釈されます。
SCORE: Checkpointing ... done.
このメッセージはそれぞれ成功したチェックポイントの後に表示されます。
SIGQUIT
を
FEP (Front-End Process) プロセスに送ることです。
これは単純にプログラムを実行しているコンソールウィンドウで "^\
"
を押すことでなされます。
上のメッセージによってチェックポイントの成功を知らされるでしょう。
FEP:ERROR SCore-D unexpectedly terminated.
-checkpoint
オプションを指定することによってこの振る舞いを
避けることが出来ます;
つまり、FEP プロセスは動きつづけ、以下のメッセージを出力します:
FEP:WARNING SCore-D unexpectedly terminated.
FEP: [07/Feb/2000 15:28:40] Waiting for SCore-D to be restarted ...
並列プロセスをチェックポイントから再開させたいのなら、この FEP プロセスを
kill してはいけません。
システムクラッシュ後に、システム管理者が SCore-D
を restart
オプションをつけて起動した場合、
FEP プロセスが起動しつづけていれば、
並列プロセスは最後のチェックポイントから自動的に再スタートします。
そして以下のようなメッセージが現れるでしょう:
FEP: [07/Feb/2000 15:30:43] SCore-D restarted.
そして並列プロセスは最後のチェックポイント イメージから続行されるでしょう。
システムクラッシュ以前にチェックポイント イメージが取られていなかった場合は、
並列プロセスは最初からやり直されます。restart
オプションをつけずに
SCore-D を再実行した場合は、
FEP プロセスは kill され、並列プロセスのチェックポイントは失われます。
以下のようなメッセージが現れるでしょう:
FEP: [07/Feb/2000 16:31:17] restart canceled by SCore-D.
-static
オプションをつけて
プログラムを make してください。MAP_SHARED
オプション付きで
mmap
(2) した共有メモリ領域です。
そのようなメモリ領域は、ファイルの内容がチェックポイント時点と
同じ内容に維持されているならば再開できます。getpid
(2) の戻り値はチェックポイント時と
同じではありませんし、gettimeofday
(2) は現在のシステム
クロック時間を戻し、チェックポイントからの休止時間の分を調整したりは
しません。Initializing checkpointer failed:
error-code
Checkpointing failed:
error-code
Restarting failed:
error-code
Dynamically linked program is uncheckpointable.
Dynamically linked program is uncheckpointable
scrun
コマンドに
-checkpoint=
number
オプションを指定したときに表示されます。
実行は全てキャンセルされます。
Fatal error in restarting:
error-code
![]() |
PCクラスタコンソーシアム |