[SCore-users-jp] 計算ノードダウン時のジョブ実行について
Mitsugu Kawaguchi
m-kawaguchi @ pst.fujitsu.com
2003年 12月 25日 (木) 15:53:12 JST
スイミー・ソフトウェア)堀様
SCore開発関係者様
富士通プライムソフトテクノロジの川口です。
回答いただき、ありがとうございました。
> 調べましたが,scout で指定したホストグループの最初のホストを除いてタイ
> ムアウトの処理が入っており,
>
> SCOUT: Spawning comp0.pccluster.org
> [comp0.pccluster.org]: Spawn timed out.
> SCOUT: Session done.
>
> という具合になるハズです(timeout は1分).
>
> しかしながら「最初のホスト」はこのタイムアウトの処理が入っていないため
> ,かなり長い間(accept がタイムアウトするまで)待つ結果となっておりま
> した.
すみません。この、「最初のホスト」というのはどういう意味でしょうか?
試しにこちらで以下の確認をしましたが、タイムアウトしませんでした。
・ グループpcc に登録されているノードのうち、3台目を停止。
(scorehosts.dbファイル内でpccグループで定義された3番目のホスト)
・ グループpccを指定してscrunコマンド実施。
5分以上待っても、タイムアウトせず。
手順に誤りがありましたら、御指摘願います。
> >シングルユーザモードの場合なら、Ctrl+Cで終了させればよいですが、
> >PBSなどのバッチソフトを利用してジョブ実行する場合、
> >バッチジョブとしてはずっと実行中扱いになるかと思いますが、
> >どうでしょうか?
>
> 次版で最初のホストもタイムアウトするよう修正いたします.ついでながらタ
> イムアウトの時間も 30 秒と少し短くします.
どうもありがとうございます。
あと、ダウンしているノードが含まれるグループを指定して
scrunコマンドを実行しても同様の現象(プロンプトが戻らない)が発生します。
上記と同じと原因なのでしょうか?
以上、宜しくお願いします。
---
川口 ==> m-kawaguchi @ pst.fujitsu.com
SCore-users-jp メーリングリストの案内