[SCore-users-jp] PBSでのジョブ投入について

Toshiyuki Kodama kodama @ dtc.co.jp
2004年 3月 27日 (土) 04:15:13 JST


PCClusterサポート御中

デジタルテクノロジーの児玉と申します。
何時もお世話になっております。

先日は、OpenPBSの件についてご対応いただき、ありがとうございました。
しかしながら、OpenPBS絡みで、新たにお聞きしたいことがございます。

PBSでジョブを投入する時に、スクリプト(test.sh)を作成し、
そのスクリプトをqsubコマンドを用いて、ジョブとして投
入するのですが、

$ psub test.sh

下記スクリプトでは、ジョブが正常に投入されるにもかかわらず

#!/bin/bash
#PBS -l nodes=1:score
#PBS -l ncpus=1
  export LANG=C
  hostname
  date
  scout -wait -F ${PBS_NODEFILE} -e scrun -nodes=1
/opt/score.image/NPB/bt.A.1

下記スクリプトに変更すると、ジョブが正常に投入されず、
「1:cluster000.test.jp」のような表示がなされるだけです。
#!/bin/bash
#PBS -l nodes=1
#PBS -l ncpus=1
  export LANG=C
  hostname
  date
  scout -wait -F ${PBS_NODEFILE} -e scrun -nodes=1
/opt/score.image/NPB/bt.A.1

両者の違いは、pbs -l コマンド実行時の、「score」という
オプション(SCore 用の並列プログラムが投入されることを意味する)
の有無だけです。
確か、SCore5.4でのPBSの時は、どちらでも正常にジョブが
投入されたかと思いますが、SCore5.6.1ではscoreオプションを
つけないと、ジョブの投入は正常に行われない仕組みになっているのでしょうか。
それとも、何かジョブ設定に関する記述が足りないのでしょうか。

なお、ジョブの投入が正常に行われなかった際のログを下記に示します。

- /var/scored/server_logs/20040326
03/26/2004 22:01:55;0100;PBS_Server;Req;;Type 49 request received from
npb-score @ cluster000.test.jp, sock=10
03/26/2004 22:01:55;0100;PBS_Server;Req;;Type 1 request received from
npb-score @ cluster000.test.jp, sock=9
                 ・
                 ・
03/26/2004
22:01:55;0100;PBS_Server;Job;1009.cluster000.test.jp;enqueuing into
default, state 1 hop 1
03/26/2004 22:01:55;0008;PBS_Server;Job;1009.cluster000.test.jp;Job
Queued at request of npb-score @ cluster000.test.jp, owner =
npb-score @ cluster000.test.jp, job name = test.sh, queue = default
03/26/2004 22:01:55;0040;PBS_Server;Svr;cluster000.test.jp;Scheduler
sent command 1
03/26/2004 22:01:55;0100;PBS_Server;Req;;Type 21 request received from
Scheduler @ cluster000.test.jp, sock=10
                 ・
                 ・
03/26/2004 22:01:55;0008;PBS_Server;Job;1009.cluster000.test.jp;Job
Modified at request of Scheduler @ cluster000.test.jp
03/26/2004 22:01:55;0100;PBS_Server;Req;;Type 15 request received from
Scheduler @ cluster000.test.jp, sock=10
                 ・
                 ・
03/26/2004
22:01:55;0010;PBS_Server;Job;1009.cluster000.test.jp;Exit_status=127
resources_used.cput=00:00:00 resources_used.mem=0kb
resources_used.vmem=0kb resources_used.walltime=00:00:00
03/26/2004 22:02:03;0100;PBS_Server;Req;;Type 49 request received from
npb-score @ cluster000.test.jp, sock=11
03/26/2004 22:02:03;0100;PBS_Server;Req;;Type 58 request received from
npb-score @ cluster000.test.jp, sock=9

- /var/scored/server_logs/20040326
(client側)
03/26/2004 21:19:08;0080; pbs_mom;Fil;sys_copy;command:
/opt/score5.6.0/pbs/i386-redhat7-linux2_4/sbin/pbs_rcp -r
/var/scored/pbs/spool/1006.istbs0.ER
npb-score @ cluster000.test.jp:/home/npb-score/work/test.sh.e1006
status=1, try=3
03/26/2004 21:19:08;0080; pbs_mom;Fil;sys_copy;command:
/opt/score5.6.0/pbs/i386-redhat7-linux2_4/sbin/pbs_rcp -r
/var/scored/pbs/spool/1006.istbs0.ER
npb-score @ cluster000.test.jp:/home/npb-score/work/test.sh.e1006
status=1, try=4

(server側)
03/26/2004 16:03:45;0008; pbs_mom;Job;629.cluster000.test.jp;Terminated
03/26/2004 16:03:45;0008; pbs_mom;Job;629.cluster000.test.jp;kill_job
03/26/2004 16:03:45;0008; pbs_mom;Job;632.cluster000.test.jp;Terminated
03/26/2004 16:03:45;0080; pbs_mom;Job;629.cluster000.test.jp;Obit sent
03/26/2004 16:03:45;0008; pbs_mom;Job;632.cluster000.test.jp;kill_job
03/26/2004 16:03:48;0100; pbs_mom;Req;;Type 54 request received from
PBS_Serve
r @ localhost.localdomain, sock=35

- /var/spool/npb-score
Unable to copy file 1006.istbs0.ER to
cluster000.test.jp:/home/npb-score/work/test.sh.e1006
>>> error from copy
rcmd: socket: Permission denied
>>> end error output
Output retained on that host in: /var/scored/pbs/undelivered/1006.istbs0.ER

以上の情報で不足している場合は、ご連絡を頂ければ幸いで御座います。


よろしくお願いします。

 
------------------------------------------------
デジタルテクノロジー株式会社
児玉 俊幸
E-mail:kodama @ dtc.co.jp
http://www.dtc.co.jp
------------------------------------------------





SCore-users-jp メーリングリストの案内