[SCore-users-jp] 計算ノードダウン時のジョブ実行について

Mitsugu Kawaguchi m-kawaguchi @ pst.fujitsu.com
2003年 12月 25日 (木) 15:53:12 JST


スイミー・ソフトウェア)堀様
SCore開発関係者様

富士通プライムソフトテクノロジの川口です。
回答いただき、ありがとうございました。

> 調べましたが,scout で指定したホストグループの最初のホストを除いてタイ
> ムアウトの処理が入っており,
>
> SCOUT: Spawning comp0.pccluster.org
> [comp0.pccluster.org]: Spawn timed out.
> SCOUT: Session done.
>
> という具合になるハズです(timeout は1分).
>
> しかしながら「最初のホスト」はこのタイムアウトの処理が入っていないため
> ,かなり長い間(accept がタイムアウトするまで)待つ結果となっておりま
> した.

すみません。この、「最初のホスト」というのはどういう意味でしょうか?
試しにこちらで以下の確認をしましたが、タイムアウトしませんでした。
 ・ グループpcc に登録されているノードのうち、3台目を停止。
   (scorehosts.dbファイル内でpccグループで定義された3番目のホスト)
 ・ グループpccを指定してscrunコマンド実施。
   5分以上待っても、タイムアウトせず。

手順に誤りがありましたら、御指摘願います。

> >シングルユーザモードの場合なら、Ctrl+Cで終了させればよいですが、
> >PBSなどのバッチソフトを利用してジョブ実行する場合、
> >バッチジョブとしてはずっと実行中扱いになるかと思いますが、
> >どうでしょうか?
>
> 次版で最初のホストもタイムアウトするよう修正いたします.ついでながらタ
> イムアウトの時間も 30 秒と少し短くします.

どうもありがとうございます。

あと、ダウンしているノードが含まれるグループを指定して
scrunコマンドを実行しても同様の現象(プロンプトが戻らない)が発生します。
上記と同じと原因なのでしょうか?

以上、宜しくお願いします。

---
川口  ==> m-kawaguchi @ pst.fujitsu.com







SCore-users-jp メーリングリストの案内