[SCore-users-jp] Re: OpenPBSについて

Toshiyuki Kodama kodama @ dtc.co.jp
2004年 3月 17日 (水) 23:27:34 JST


亀山様、住元様

児玉です。

Toshiyuki Kodama wrote:

>児玉です。
>
>  
>
>>亀山です.
>>
>>In article <4057FCE2.5040803 @ dtc.co.jp> Toshiyuki Kodama <kodama @ dtc.co.jp> wrotes:
>> 
>>
>>>ジョブを実行した直後、4nodeのPBS_MOMが正常に
>>> 「INUSE」の状態になっておりました。
>>>・ cluster000のみがDownの状態になっていました。
>>>  それ以外のノードは、Freeの状態でした。
>>> 
>>>これは、cluster000のpbs_momが正常にあがっていないことを
>>>意味するのですよね。
>>>
>>そうですね.
>>で, computer host では scrun コマンドが
>>install されていない可能性があるので SCore の job は必ず master node
>>の pbs_mom を使用して起動するため, 全く実行してくれない
>>ということだと推測します.
>>
>正常にあがらない仕組みは分かってきました。
>確かに、亀山様のおっしゃるとおり、scrunコマンドはインストール
>しておりません。
>(EITインストールでは、scrunインストールされないですよね。)
>computer hostにscrunが入っていたら、何か動きが違うのでしょうか。
>  
>
合わせてお聞きしたいのですが、computer host に scrunを入れることで
SCoreの動作上、何かメリットはあるのでしょうか。

>>>/var/scored/*logs/20040315の内容を抜粋してお送りします。
>>>
>>>気になるところとしましては、/var/scored/mom_logs/20040315の内容
>>>で、次のメッセージ(エラー)が頻発していることです。
>>>
>>>03/15/2004 15:46:24;0001; pbs_mom;Svr;pbs_mom;Bad file descriptor (9) in
>>>wait_
>>>request, select failed
>>>03/15/2004 15:46:24;0001; pbs_mom;Svr;pbs_mom;pbs_mom, wait_request failed
>>>
>>なんか, 監視すべき file descriptor が close() したかなんか
>>しているようですね.
>>    
>>
その後、調査しましたところ、下記メッセージの繰り返し現象が起こっています。

03/17/2004 20:16:25;0002; pbs_mom;Svr;pbs_mom;caught signal 15
03/17/2004 20:25:16;0002; pbs_mom;Svr;Log;Log opened
03/17/2004 20:25:16;0002; pbs_mom;n/a;initialize;independent
03/17/2004 20:25:16;0002; pbs_mom;Svr;pbs_mom;Is up
03/17/2004 20:28:32;0002; pbs_mom;Svr;pbs_mom;caught signal 15
03/17/2004 20:28:32;0002; pbs_mom;Svr;pbs_mom;Is down
03/17/2004 20:28:32;0002; pbs_mom;Svr;Log;Log closed
03/17/2004 20:28:33;0002; pbs_mom;Svr;Log;Log opened
03/17/2004 20:28:33;0002; pbs_mom;n/a;initialize;independent
03/17/2004 20:28:33;0002; pbs_mom;Svr;pbs_mom;Is up
03/17/2004 21:15:52;0002; pbs_mom;Svr;pbs_mom;caught signal 15
03/17/2004 21:15:52;0002; pbs_mom;Svr;pbs_mom;Is down
03/17/2004 21:15:52;0002; pbs_mom;Svr;Log;Log closed
03/17/2004 21:20:23;0002; pbs_mom;Svr;Log;Log opened
03/17/2004 21:20:23;0002; pbs_mom;n/a;initialize;independent
03/17/2004 21:20:23;0002; pbs_mom;Svr;pbs_mom;Is up
03/17/2004 21:29:36;0001; pbs_mom;Svr;pbs_mom;Success (0) in rm_request,
bad a
ttempt to connect 
    message refused from port 32780 addr (master server's address)
03/17/2004 21:30:36;0001; pbs_mom;Svr;pbs_mom;Success (0) in rm_request,
bad a
ttempt to connect
message refused from port 32780 addr (master server's address)

>>>これは、cluster000の方のpbs_momをもう一度入れ直して済む問題でしょうか。
>>>
>>とりあえず, pbs_mom を立ち上げ直すと動くかもしれません.
>>
>pbs_momを起動しなおし(デーモンの再起動)、入れなおし(OpenPBSの再インス
>トール)を
>行ってみましたが、(cluster000だけDOWNする)現象は変わりませんでした。
>ただ、切り分けをしていて一つ気になったのは、rootユーザでxpbsmonコマンド
>を実行し
>たところ、全てのノードのpbs_momが正常に起動するのです。
>
>xpbsmonコマンドを発行した時の動きは、「ユーザに依らず」全てのコンピュータの
>pbs_momが「INUSED」もしくは「FREE」として起動するしくみだと思っているの
>ですが、
>この見解は間違っていますか?
>もしその見解が間違っていないとしたら、pbs_mom云々の話よりも、
>pbs_momに関連する何かの設定がおかしいのでしょうか?
>
申し訳ありません。上記文章には誤解させるような記述がありましたので、
再度申し上げます。

xpbsmonコマンドを発行した時の動きは、ユーザに依らず、全てのコンピュータ
において
pbs_momが「INUSED」もしくは「FREE」として起動するしくみだと思っていました。
また、Openpbsのインストール時、rootユーザでしかコンパイルができなかった
こともあり、
一般ユーザでジョブを投入するには、上記の仕組みになっているのではないか
という見解を持ちました。この見解に間違いはないでしょうか。
ちなみに、前回のメールのあと、pbs_momの設定(chmodやソースの中身)の変更を
行ってみましたが、現象は変わりませんでした。


以上、よろしくお願い申し上げます。


--------------------------------------------------------------
Toshiyuki Kodama
kodama.t @ olive.livedoor.com




SCore-users-jp メーリングリストの案内