[SCore-users-jp] 計算ノードダウン時のジョブ実行について
Atsushi HORI
hori @ swimmy-soft.com
2003年 12月 25日 (木) 11:05:54 JST
堀@スイミー・ソフトウェアです.
>指定グループに属するノードがどれかダウンしている場合に
>シングルユーザモードにてジョブ実行すると、
>”<計算ノード名: No route to host”というメッセージが表示され、
>scrunプロンプトが戻ってきません。
> # 10分程度待ちましたが、足りない?
調べましたが,scout で指定したホストグループの最初のホストを除いてタイ
ムアウトの処理が入っており,
SCOUT: Spawning comp0.pccluster.org
[comp0.pccluster.org]: Spawn timed out.
SCOUT: Session done.
という具合になるハズです(timeout は1分).
しかしながら「最初のホスト」はこのタイムアウトの処理が入っていないため
,かなり長い間(accept がタイムアウトするまで)待つ結果となっておりま
した.
>シングルユーザモードの場合なら、Ctrl+Cで終了させればよいですが、
>PBSなどのバッチソフトを利用してジョブ実行する場合、
>バッチジョブとしてはずっと実行中扱いになるかと思いますが、
>どうでしょうか?
次版で最初のホストもタイムアウトするよう修正いたします.ついでながらタ
イムアウトの時間も 30 秒と少し短くします.
----
堀 敦史(ほり あつし)
スイミー・ソフトウェア株式会社
SCore-users-jp メーリングリストの案内