[SCore-users-jp] Re: OpenPBSについて

kameyama @ pccluster.org kameyama @ pccluster.org
2004年 3月 17日 (水) 18:49:55 JST


亀山です.

In article <4057FCE2.5040803 @ dtc.co.jp> Toshiyuki Kodama <kodama @ dtc.co.jp> wrotes:
> ・ ジョブを実行した直後、4nodeのPBS_MOMが正常に
>  「INUSE」の状態になっておりました。
> ・ cluster000のみがDownの状態になっていました。
>   それ以外のノードは、Freeの状態でした。
>  
> これは、cluster000のpbs_momが正常にあがっていないことを
> 意味するのですよね。

そうですね.
で, computer host では scrun コマンドが
install されていない可能性があるので SCore の job は必ず master node
の pbs_mom を使用して起動するため, 全く実行してくれない
ということだと推測します.

> /var/scored/*logs/20040315の内容を抜粋してお送りします。
> 
> 気になるところとしましては、/var/scored/mom_logs/20040315の内容
> で、次のメッセージ(エラー)が頻発していることです。
> 
> 03/15/2004 15:46:24;0001; pbs_mom;Svr;pbs_mom;Bad file descriptor (9) in
> wait_
> request, select failed
> 03/15/2004 15:46:24;0001; pbs_mom;Svr;pbs_mom;pbs_mom, wait_request failed

なんか, 監視すべき file descriptor が close() したかなんか
しているようですね.

> これは、cluster000の方のpbs_momをもう一度入れ直して済む問題でしょうか。

とりあえず, pbs_mom を立ち上げ直すと動くかもしれません.

                       from Kameyama Toyohisa



SCore-users-jp メーリングリストの案内