[SCore-users-jp] Re: OpenPBSについて

Toshiyuki Kodama kodama @ dtc.co.jp
2004年 3月 17日 (水) 19:11:45 JST


児玉です。

様が書きました。

>亀山です.
>
>In article <4057FCE2.5040803 @ dtc.co.jp> Toshiyuki Kodama <kodama @ dtc.co.jp> wrotes:
>  
>
>>・ ジョブを実行した直後、4nodeのPBS_MOMが正常に
>> 「INUSE」の状態になっておりました。
>>・ cluster000のみがDownの状態になっていました。
>>  それ以外のノードは、Freeの状態でした。
>> 
>>これは、cluster000のpbs_momが正常にあがっていないことを
>>意味するのですよね。
>>    
>>
>そうですね.
>で, computer host では scrun コマンドが
>install されていない可能性があるので SCore の job は必ず master node
>の pbs_mom を使用して起動するため, 全く実行してくれない
>ということだと推測します.
>
正常にあがらない仕組みは分かってきました。
確かに、亀山様のおっしゃるとおり、scrunコマンドはインストールしておりま
せん。
(EITインストールでは、scrunインストールされないですよね。)
computer hostにscrunが入っていたら、何か動きが違うのでしょうか。

>>/var/scored/*logs/20040315の内容を抜粋してお送りします。
>>
>>気になるところとしましては、/var/scored/mom_logs/20040315の内容
>>で、次のメッセージ(エラー)が頻発していることです。
>>
>>03/15/2004 15:46:24;0001; pbs_mom;Svr;pbs_mom;Bad file descriptor (9) in
>>wait_
>>request, select failed
>>03/15/2004 15:46:24;0001; pbs_mom;Svr;pbs_mom;pbs_mom, wait_request failed
>>    
>>
>
>なんか, 監視すべき file descriptor が close() したかなんか
>しているようですね.
>
>>これは、cluster000の方のpbs_momをもう一度入れ直して済む問題でしょうか。
>>    
>>
>とりあえず, pbs_mom を立ち上げ直すと動くかもしれません.
>  
>
pbs_momを起動しなおし(デーモンの再起動)、入れなおし(OpenPBSの再インス
トール)を
行ってみましたが、(cluster000だけDOWNする)現象は変わりませんでした。
ただ、切り分けをしていて一つ気になったのは、rootユーザでxpbsmonコマンド
を実行し
たところ、全てのノードのpbs_momが正常に起動するのです。
xpbsmonコマンドを発行した時の動きは、「ユーザに依らず」全てのコンピュータの
pbs_momが「INUSED」もしくは「FREE」として起動するしくみだと思っているの
ですが、
この見解は間違っていますか?
もしその見解が間違っていないとしたら、pbs_mom云々の話よりも、
pbs_momに関連する何かの設定がおかしいのでしょうか?

>                       from Kameyama Toyohisa
>

-- 
------------------------------------------------
デジタルテクノロジー株式会社
テクニカルサポート部 技術一課
児玉 俊幸
〒116-0014
東京都荒川区東日暮里5-7-18 コスモパークビル
TEL:03-5604-7979  FAX:03-3802-3400
E-mail:kodama @ dtc.co.jp
http://www.dtc.co.jp
------------------------------------------------





SCore-users-jp メーリングリストの案内