予期しない停止から SCore-D を再開する
SCore-D はユーザがログインおよびログアウトするたびに自身のチェックポイントを行います。SCore-D が restart
オプション付きで再起動された場合、SCore-D は一番最後にチェックポイントが行われた時点からの回復を試みます。コマンドラインは以下のようになります:
scored -restart
SCore-D を再開すると、再開可能なユーザ並列プロセスが回復されます。restart
または checkpoint
オプションを指定された、あるいは "^\
" (SIGQUIT
) によってチェックポイントされたユーザ並列プロセスが再開可能であるとみなされます。再開可能な並列プロセスのチェックポイントイメージが見つかると、SCore-D はそのプロセスをチェックポイントの時点から再開させようと試みます。
以下は SCore-D およびユーザ並列プロセスの再開に成功した場合の例です:
# scored -restart
SYSLOG: Timeslice is set to 500[ms]
SYSLOG: Cluster[0]: comp0.pccluster.org@0...comp3.pccluster.org@3
SYSLOG: BIN=linux, CPUGEN=pentium-iii, SMP=1, SPEED=500
SYSLOG: Network[0]: myrinet/myrinet
SYSLOG: SCore-D network: myrinet/myrinet
SYSLOG: Recover: user1@host1.pccluster.org:4681
SYSLOG: SCore-D server: comp3.pccluster.org:9901
SCore-D の再起動時に restart
オプションが指定されなかった場合、以前チェックポイントが行われていたユーザ並列プロセスは再開されず、チェックポイントイメージも削除されます:
# scored
SYSLOG: Timeslice is set to 500[ms]
SYSLOG: Cluster[0]: comp0.pccluster.org@0...comp3.pccluster.org@3
SYSLOG: BIN=linux, CPUGEN=pentium-iii, SMP=1, SPEED=500
SYSLOG: Network[0]: myrinet/myrinet
SYSLOG: SCore-D network: myrinet/myrinet
SYSLOG: Recover canceled by SCore-D: user1@host1.pccluster.org:4672
SYSLOG: SCore-D server: comp3.pccluster.org:9901
restart
オプションが指定されたものの、ユーザ並列プロセスがユーザによって既に kill されていた場合、以下のようなメッセージが得られます:
# scored -restart
SYSLOG: Timeslice is set to 500[ms]
SYSLOG: Cluster[0]: comp0.pccluster.org@0...comp3.pccluster.org@3
<7> SCore-D:WARNING connect_fep(host1.pccluster.org:4679)=111 failed !!
SYSLOG: BIN=linux, CPUGEN=pentium-iii, SMP=1, SPEED=500
SYSLOG: Network[0]: myrinet/myrinet
SYSLOG: SCore-D network: myrinet/myrinet
SYSLOG: Recover canceled by user: user1@host1.pccluster.org:4679
SYSLOG: SCore-D server: comp3.pccluster.org:9901
もし restart
オプションが正しく動作しない場合は、SCore-D 環境をリセットする必要があります。この場合には reset
オプションを使用してください。reset
オプションが指定された場合、ユーザプログラムは再開されなくなることに注意してください。
- CREDIT
- This document is a part of the SCore cluster system software
developed at PC Cluster Consortium, Japan.
Copyright (C) 2003 PC Cluster Consortium.