[SCore-users-jp] 計算ノードダウン時のSCore の動きについて

kameyama @ pccluster.org kameyama @ pccluster.org
2004年 1月 27日 (火) 08:42:04 JST


亀山です.

In article <002401c3e414$9d84a2a0$570aa8c0 @ Globus> "Mitsugu Kawaguchi" <m-kawaguchi @ pst.fujitsu.com> wrotes:
> > In article <007001c3e262$08b492b0$570aa8c0 @ Globus> "Mitsugu
> > Kawaguchi" <m-kawaguchi @ pst.fujitsu.com> wrotes:
> > > scrunコマンドでジョブ実行中に計算ノードがダウンすると、
> > > 他計算ノードのジョブプロセスが終了しても、
> > > scrunコマンドが復帰しませんでした。
> > > また、ダウンした計算ノードが再起動しても同様に
> > > scrunコマンドは復帰しませんでした。
> >
> > "復帰" というのがどのような現象をさしているのか不明ですが,
> > single user mode で restart させるためには, scrun を score 環境の外で
> >     % scrun -group=pcc,checkpoint ...
> > のように group オプションと checkpoint option を指定する必要があります
> 
> ”復帰”という単語は、scrunプロセスが終了して
> プロンプトが戻ってくるという意味で使いました。

そのような意味でしたら, SCore 5.6.1 で
    % scrun -group=pcc  /opt/score/test/scored/bigmem
で program を起動し, そのうち 1 台を reboot したら,
その host が停止したときに
    <1> SCORE: Program signaled (SIGKILL).
    SCOUT: Session done.
で終了しました.

> それから、この質問は、特にrestartさせるのが目的という訳ではなく、
> 計算ノードがダウンした場合にこちらで確認した動作で正しいのかと
> いうことだけを気にしていました。

少なくてもこちらと動作が違うことだけは確かですね.

                       from Kameyama Toyohisa



SCore-users-jp メーリングリストの案内