[SCore-users-jp] 計算ノードダウン時のジョブ実行について

Atsushi HORI hori @ swimmy-soft.com
2003年 12月 25日 (木) 11:05:54 JST


堀@スイミー・ソフトウェアです.

>指定グループに属するノードがどれかダウンしている場合に
>シングルユーザモードにてジョブ実行すると、
>”<計算ノード名: No route to host”というメッセージが表示され、
>scrunプロンプトが戻ってきません。
> # 10分程度待ちましたが、足りない?

調べましたが,scout で指定したホストグループの最初のホストを除いてタイ
ムアウトの処理が入っており,

SCOUT: Spawning comp0.pccluster.org
[comp0.pccluster.org]: Spawn timed out.
SCOUT: Session done.

という具合になるハズです(timeout は1分).

しかしながら「最初のホスト」はこのタイムアウトの処理が入っていないため
,かなり長い間(accept がタイムアウトするまで)待つ結果となっておりま
した.

>シングルユーザモードの場合なら、Ctrl+Cで終了させればよいですが、
>PBSなどのバッチソフトを利用してジョブ実行する場合、
>バッチジョブとしてはずっと実行中扱いになるかと思いますが、
>どうでしょうか?

次版で最初のホストもタイムアウトするよう修正いたします.ついでながらタ
イムアウトの時間も 30 秒と少し短くします.

----
堀 敦史(ほり あつし)
スイミー・ソフトウェア株式会社




SCore-users-jp メーリングリストの案内