From yoneya @ nanolc.jst.go.jp Tue Apr 1 00:03:36 2003 From: yoneya @ nanolc.jst.go.jp (=?iso-2022-jp?b?eW9uZXlhIBskQiF3GyhCIG5hbm9sYy5qc3QuZ28uanA=?=) Date: Tue, 1 Apr 2003 00:03:36 +0900(JST) Subject: [SCore-users-jp] RE: [SCore-users] How to specify a input data file with scrun? In-Reply-To: References: Message-ID: <20030401000336.1491.yoneya@nanolc.jst.go.jp> Dear SCore pilots: I finally succeeded to run my job on our SCore cluster system. Thanks a lot for many valuable suggestions on this list! The final commands which resulted in succesful run are as follows. scrun -nodes=4x1 scatter -node 0 -file /tmp/moldata.tpr :: mdrun_d -np 4 -s /tmp/moldata.tpr -deffnm moldata < moldata.tpr Where, mdrun_d is the GROMACS main MD program name and moldata.tpr is the input data file name. I need the both -s and -deffnm options since the former specifies the absolute place of the input file and the latter specifies the generic input/output file names. I hope it helps to whom wants to run GROMACS on SCore running system. Thanks again your valuable suggestions which lead to me the goal. Best wishes. Makoto Yoneya JST/ERATO Yokoyama Nano-structured LC project. _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From James_ODell @ Brown.edu Tue Apr 1 04:14:19 2003 From: James_ODell @ Brown.edu (James O'Dell) Date: 31 Mar 2003 14:14:19 -0500 Subject: [SCore-users-jp] [SCore-users] Compiling OpenPBS Message-ID: <1049138059.19476.78.camel@cr1> I am trying to compile OpenPBS. When I follow the instructions and type smake, I get an error saying that the Compiler is misconfigured and that the problem needs to be corrected. If I insert LDFLAGS="-Bstatic" at line 665 of the configure script in the openpbs/src directory everything seems to compile correctly. I know that placing such a line in the Configure script is not a good idea to do but I cannot find the correct place to put it. Can someone please help? Thanks, Jim _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From ce107 @ dam.brown.edu Tue Apr 1 04:22:47 2003 From: ce107 @ dam.brown.edu (C. Evangelinos) Date: Mon, 31 Mar 2003 14:22:47 -0500 (EST) Subject: [SCore-users-jp] Re: [SCore-users] SCORE_RSH and use of ssh instead of rsh In-Reply-To: from "Bogdan Costescu" at Mar 28, 2003 12:55:01 PM Message-ID: <200303311922.h2VJMlL17241@fritz.dam.brown.edu> Thanks to all that answered my e-mail and sorry for not RTFMing before asking but I was not looking at the install from source pages... > On Thu, 27 Mar 2003, C. Evangelinos wrote: > > > 1) removing the rpms leaves init scripts behind in /etc/rc.d as >well > > as the new devices (the latter is not really a problem) > > Indeed, the devices are not a problem. However, the scripts should >be > removed, but only if you did not modify them (= rpm -V still reports >them > as "original"). They are not - just something to be fixed for the next rev I suppose. # rpm -i score5.4.0-comp-5.4.0-1.i386.rpm score5.4.0-common-5.4.0-1.i386.rpm # rpm -V score5.4.0-common score5.4.0-comp # rpm -e score5.4.0-common score5.4.0-comp # ls -l /etc/init.d/pm_ethernet -rwxr-xr-x 1 root root 1394 Mar 31 14:06 /etc/init.d/pm_ethernet # ls -l /etc/rc.d/*.d/*pm_ethernet -rwxr-xr-x 1 root root 1394 Mar 31 14:06 /etc/rc.d/init.d/pm_ethernet lrwxrwxrwx 1 root root 21 Mar 20 17:07 /etc/rc.d/rc0.d/K18pm_ethernet -> ../init.d/pm_ethernet lrwxrwxrwx 1 root root 21 Mar 20 17:07 /etc/rc.d/rc1.d/K18pm_ethernet -> ../init.d/pm_ethernet lrwxrwxrwx 1 root root 21 Mar 20 17:07 /etc/rc.d/rc2.d/K18pm_ethernet -> ../init.d/pm_ethernet lrwxrwxrwx 1 root root 21 Mar 20 17:07 /etc/rc.d/rc3.d/S90pm_ethernet -> ../init.d/pm_ethernet lrwxrwxrwx 1 root root 21 Mar 20 17:07 /etc/rc.d/rc4.d/S90pm_ethernet -> ../init.d/pm_ethernet lrwxrwxrwx 1 root root 21 Mar 20 17:07 /etc/rc.d/rc5.d/S90pm_ethernet -> ../init.d/pm_ethernet lrwxrwxrwx 1 root root 21 Mar 20 17:07 /etc/rc.d/rc6.d/K18pm_ethernet -> ../init.d/pm_ethernet # ls -l /etc/init.d/scoutd -rwxr-xr-x 1 root root 4298 Mar 31 14:06 /etc/init.d/scoutd # ls -l /etc/rc.d/*.d/*scoutd -rwxr-xr-x 1 root root 4298 Mar 31 14:06 /etc/rc.d/init.d/scoutd lrwxrwxrwx 1 root root 16 Mar 20 17:07 /etc/rc.d/rc0.d/K01scoutd -> ../init.d/scoutd lrwxrwxrwx 1 root root 16 Mar 20 17:07 /etc/rc.d/rc1.d/K01scoutd -> ../init.d/scoutd lrwxrwxrwx 1 root root 16 Mar 20 17:07 /etc/rc.d/rc2.d/K01scoutd -> ../init.d/scoutd lrwxrwxrwx 1 root root 16 Mar 20 17:07 /etc/rc.d/rc3.d/S98scoutd -> ../init.d/scoutd lrwxrwxrwx 1 root root 16 Mar 20 17:07 /etc/rc.d/rc4.d/S98scoutd -> ../init.d/scoutd lrwxrwxrwx 1 root root 16 Mar 20 17:07 /etc/rc.d/rc5.d/S98scoutd -> ../init.d/scoutd lrwxrwxrwx 1 root root 16 Mar 20 17:07 /etc/rc.d/rc6.d/K01scoutd -> ../init.d/scoutd > > 2) It would be nice to have a script that reproduces the effects of > > installing the rpms for setting up device and configuration scripts, > > local directories etc. > > It exists. You probably didn't read the whole docs... > >http://www.pccluster.org/score/dist/score/html/en/installation/sys-compute-fr\omsrc.html Sorry for that - I read the non-source setup parts... :-( > > Performance between such a box and another one with an Intel eepro100 > > driven card is so-and-so > > You compare two different things: if you have eepro100 cards for the whole > cluster, use them ! But I don't - the "cluster" is just the group's Linux boxes that I want to be able to use during idle times for parallel work. Hence they have all sorts of cards on them... > Well, if you can get ssh to act like rsh (which is normally the case), > then you can just rename ssh to rsh (or make a link or ...) and everything > should just work. That and using HostsRSA authentication is a good solution but the proper sysadm for the lab needs to agree with it... >>But if you run scoutd on compute hosts, >>scout use scoutd insted of rshd. >>So you may stop rshd on compute hosts. Kameyama's solution with scoutd unfortunately does not seem to work. I have scout daemons running on my nodes (as described) and irrespective of whether I use the -g groupname argument or the -f hostfile argument scout appears to fail to connect to it and then try to use rsh. Is there anything more to this than the little info in the documentation? Thanks again to everyone. Constantinos Evangelinos Center for Fluid Mechanics Brown University and Ocean Engineering Department MIT _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From kameyama @ pccluster.org Tue Apr 1 10:19:24 2003 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Tue, 01 Apr 2003 10:19:24 +0900 Subject: [SCore-users-jp] Re: [SCore-users] SCORE_RSH and use of ssh instead of rsh In-Reply-To: Your message of "Mon, 31 Mar 2003 14:22:47 JST." <200303311922.h2VJMlL17241@fritz.dam.brown.edu> Message-ID: <20030401011924.A38FD20058@neal.il.is.s.u-tokyo.ac.jp> In article <200303311922.h2VJMlL17241 @ fritz.dam.brown.edu> "C. Evangelinos" wrotes: > >>But if you run scoutd on compute hosts, > >>scout use scoutd insted of rshd. > >>So you may stop rshd on compute hosts. > > Kameyama's solution with scoutd unfortunately does not seem to work. I > have scout daemons running on my nodes (as described) and irrespective > of whether I use the -g groupname argument or the -f hostfile argument > scout appears to fail to connect to it and then try to use rsh. Is > there anything more to this than the little info in the documentation? If you want to use scoutd with -g option, you must set SCBDSERV environment variable to access scoreboard. (If you set this variable to /etc/score.conf, /etc/rc.d/init.d/scoutd read this file.) If you want to use -f option, this host must be official name. In both case, you must add the host to run scout command in the group or file. If you check scoutd, you can use sceptic. For example: server% ceptic -v -g pcc comp3.pccluster.org: OK comp2.pccluster.org: OK comp1.pccluster.org: OK comp0.pccluster.org: scping FAILED comp0.pccluster.org: OK All host responding. server% This means comp0 don't access scoutd from server, but rsh iis ok. Also you can use scping to more daatail. server% scping comp0.pccluster.org Connection closed. This meaqns, scout is running, but you can't access via server. server% scping comp0.pccluster.org Unable to make connection. This means scoutd is not running. from Kameyama Toyohisa _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From bogdan.costescu @ iwr.uni-heidelberg.de Wed Apr 2 00:35:25 2003 From: bogdan.costescu @ iwr.uni-heidelberg.de (Bogdan Costescu) Date: Tue, 1 Apr 2003 17:35:25 +0200 (CEST) Subject: [SCore-users-jp] Re: [SCore-users] SCORE_RSH and use of ssh instead of rsh In-Reply-To: <200303311922.h2VJMlL17241@fritz.dam.brown.edu> Message-ID: On Mon, 31 Mar 2003, C. Evangelinos wrote: > But I don't - the "cluster" is just the group's Linux boxes that I > want to be able to use during idle times for parallel work. Hence they > have all sorts of cards on them... Here you might have a problem... If the cards are not identical, even for good-functioning cards, you will probably see differences in timing of sending and receiving packets which will lower the overall performance of the "cluster". I haven't heard of such clusters, normally the desktop computers are taken from a lab where all computers were bought at the same time and thus have identical hardware... I think that in your case the only solution is to invest some money in some good network cards for all the computers that will be used in the cluster. -- Bogdan Costescu IWR - Interdisziplinaeres Zentrum fuer Wissenschaftliches Rechnen Universitaet Heidelberg, INF 368, D-69120 Heidelberg, GERMANY Telephone: +49 6221 54 8869, Telefax: +49 6221 54 8868 E-mail: Bogdan.Costescu @ IWR.Uni-Heidelberg.De _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From Mergers_358 @ att.net Wed Apr 2 04:52:50 2003 From: Mergers_358 @ att.net (Mergers_471) Date: Tue, 1 Apr 2003 11:52:50 -0800 Subject: [SCore-users-jp] [SCore-users] . rqej Message-ID: <200304011750.h31HoXT04274@pccluster.org> HTMLの添付ファイルを保管しました... URL: From James_ODell @ brown.edu Wed Apr 2 06:52:34 2003 From: James_ODell @ brown.edu (James O'Dell) Date: 01 Apr 2003 16:52:34 -0500 Subject: [SCore-users-jp] [SCore-users] Compiling GROMACS Message-ID: <1049233954.21103.109.camel@cr1> I am trying to compile GROMACS with X enabled. Mow the SCore compilers try to link all of the programs statically but X likes to be linked dynamically. Anybody have any ideas as to how to resolve these two requirements? Thanks, Jim _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From kameyama @ pccluster.org Wed Apr 2 09:17:37 2003 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Wed, 02 Apr 2003 09:17:37 +0900 Subject: [SCore-users-jp] Re: [SCore-users] Compiling GROMACS In-Reply-To: Your message of "01 Apr 2003 16:52:34 JST." <1049233954.21103.109.camel@cr1> Message-ID: <20030402001737.ADEAB20058@neal.il.is.s.u-tokyo.ac.jp> In article <1049233954.21103.109.camel @ cr1> "James O'Dell" wrotes: > I am trying to compile GROMACS with X enabled. > Mow the SCore compilers try to link all of the programs > statically but X likes to be linked dynamically. 1. Please try -nostatic option. SCore compilers default is statically link. But -nostatic option force dybamically link. Note that SCore is not able to checkpoint/restore dynamically program. 2. Please add -ldl library to link the program. If you add this option, you can X11 programs to be statically linked. SCore demo program (mandel and pmandel) is linked with -ldl option. from Kameyama Toyohisa _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From James_ODell @ brown.edu Fri Apr 4 02:36:45 2003 From: James_ODell @ brown.edu (James O'Dell) Date: 03 Apr 2003 12:36:45 -0500 Subject: [SCore-users-jp] [SCore-users] OpnePBS and Score Message-ID: <1049391405.25307.7.camel@cr1> I am in the process of configuring OpenPBS to run with Score. Everything seems to be working correctly but I've hit a bit of an issue I'd like some input on. If I issue a command like qsub -l nodes=8:ppn=2:score run.sh then the node file that gets passed in to run.sh as the node file contains 2 entries as you might expect from the ppn=2 line in the qsub command. The trouble comes when scout tries to get a lock on the nodes needed to run my job. Presumably it get a lock on the first entry of a duplicate set of nodes but then when it tries to get a lock on the second entry, it just hangs waiting for it to come free, which it never will. Is there an easy way resolve this issue so that users will not be surprised? Jim _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From M.Newiger @ web.de Fri Apr 4 08:58:16 2003 From: M.Newiger @ web.de (M.Newiger) Date: Fri, 04 Apr 2003 01:58:16 +0200 Subject: [SCore-users-jp] [SCore-users] Files Message-ID: <3E8CCA98.4CDCE5D9@web.de> Hi, in which files of SCore are the hostname of the nodes and the master stored? Is there any complete list. I found the hostnames in .rhosts and /etc/hosts. Where else could I find them? Regards M.Newiger _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From kameyama @ pccluster.org Fri Apr 4 09:18:45 2003 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Fri, 04 Apr 2003 09:18:45 +0900 Subject: [SCore-users-jp] Re: [SCore-users] Files In-Reply-To: Your message of "Fri, 04 Apr 2003 01:58:16 JST." <3E8CCA98.4CDCE5D9@web.de> Message-ID: <20030404001845.6923A20024@neal.il.is.s.u-tokyo.ac.jp> In article <3E8CCA98.4CDCE5D9 @ web.de> "M.Newiger" wrotes: > in which files of SCore are the hostname of the nodes and the master > stored? Is there any complete list. I found the hostnames in .rhosts and > /etc/hosts. Where else could I find them? The hostnames search local /etc/hosts, NIS and DNS. The order of seach dependent to /etc/nsswitch.conf (please see nsswitch.conf(5)). cluster-hostname-check will be help to seach the hostname search methord. Please see http://www.pccluster.org/score/dist/score/html/en/man/man8/cluster-hostname-check.html from Kameyama Toyohisa _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From nakira @ cogni.cs.kumamoto-u.ac.jp Fri Apr 4 15:13:33 2003 From: nakira @ cogni.cs.kumamoto-u.ac.jp (akira nakagawa) Date: Fri, 4 Apr 2003 15:13:33 +0900 Subject: [SCore-users-jp] rloginでログインするのにちょうど60秒かかってしまう Message-ID: <20030404151333.5e2bd3c0.nakira@cogni.cs.kumamoto-u.ac.jp> 中川と言います。 現在,SCore Ver.5.4 をRedHat 7.3 に RPM を使って インストールしています。 その際に非常に困った現象が起きております。 どなたかお力をお貸しいただけないでしょうか? 症状はある特定のホストから他の任意のホストへの rloginによるログインにちょうど60秒かかってしまうというものです。 例えば parallel-a042 というホストから parallel-a043 という ホストへ以下の様に rlogin をします。 時計は ntpdate でそろえてあります。 # date ; rlogin a043 (この時表示される時間は 13:27:49 ,ユーザはrootです。) parallel-a043 において #xinetd -d と,xinetdをデバッグモードで起動したときに表示されるログ ---- begin ---- 03/4/4 @ 13:27:49:DEBUG {select_return 1} 03/4/4 @ 13:27:49:DEBUG {server_start} Starting service login 03/4/4 @ 13:27:49:DEBUG {main_loop} active_services = 2 03/4/4 @ 13:27:49:DEBUG {exec_server} duping 9 ---- end ---- parallel-a043 のrloginによるログイン時に記録される /var/log/messages のログ --- begin ---- Apr 4 13:28:49 parallel-a043 pam_rhosts_auth[6153]: allowed to root @ parallel-a042.cogni.kumamoto-u.ac.jp as root Apr 4 13:28:49 parallel-a043 login(pam_unix)[6209]: session opened for user root by (uid=0) Apr 4 13:28:49 parallel-a043 login -- root[6209]: ROOT LOGIN ON pts/2 FROM parallel-a042 ---- end ---- rlogin を実行してからちょうど 60秒後にログインできています。 (追試しましたが結果は同じでした。) xinetdはrloginされた瞬間にサービスを起動していますし, 試しにrloginの代わりにtelnetやsshを使ったところ, すぐにlogin 出来ましたので, rloginのクライアント側に問題があると考えていますが, 原因がさっぱり分かりません。 以下に xinetd.d ,rlogin に関係しそうな情報を載せます。 ---------- /etc/xinetd.conf defaults { instances = 60 log_type = SYSLOG authpriv log_on_success = HOST PID log_on_failure = HOST cps = 25 30 } includedir /etc/xinetd.d ---------- /etc/xinetd.d/rlogin service login { disable = no socket_type = stream wait = no user = root log_on_success += USERID log_on_failure += USERID server = /usr/sbin/in.rlogind } --------- /etc/sysconfig/authconfig USEDB=no USEHESIOD=no USELDAP=no USENIS=no USEKERBEROS=no USELDAPAUTH=no USEMD5=yes USESHADOW=yes USESMBAUTH=no --------- /etc/hosts.equiv 省略.. parallel-a041.cogni.kumamoto-u.ac.jp parallel-a042.cogni.kumamoto-u.ac.jp parallel-a043.cogni.kumamoto-u.ac.jp --------- /root/.rhosts parallel-a041 parallel-a042 parallel-a043 --------- /etc/securetty 省略... rsh rlogin rexec --------- ホストネームなど。 [root @ parallel-a042 root]# hostname -a ; hostname -s ; hostname -i ; hostname -d parallel-a042 parallel-a042 192.168.2.42 cogni.kumamoto-u.ac.jp --------- [root @ parallel-a043 root]# hostname -a ; hostname -s ; hostname -i ; hostname -d parallel-a043 parallel-a043 192.168.2.43 cogni.kumamoto-u.ac.jp --------- 何か他にrloginに関係するファイルがあるのかもしれませんが 探し切れませんでした。 お知恵を拝借したいと思います。 よろしくお願いします。 -- ============================================================ 熊本大学 大学院 自然科学研究科 数理科学情報システム専攻 2年 情報認知研究室所属 中川 彰 メールアドレス 大学 : nakira @ cogni.cs.kumamoto-u.ac.jp 自宅 : nakira @ boreas.dti.ne.jp ============================================================ From kameyama @ pccluster.org Fri Apr 4 15:40:04 2003 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Fri, 04 Apr 2003 15:40:04 +0900 Subject: [SCore-users-jp] rloginでログインするのにちょうど60秒かかってしまう In-Reply-To: Your message of "Fri, 04 Apr 2003 15:13:33 JST." <20030404151333.5e2bd3c0.nakira@cogni.cs.kumamoto-u.ac.jp> Message-ID: <20030404064004.0EE1220024@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <20030404151333.5e2bd3c0.nakira @ cogni.cs.kumamoto-u.ac.jp> akira nakagawa wrotes: > #xinetd -d > と,xinetdをデバッグモードで起動したときに表示されるログ > > ---- begin ---- > 03/4/4 @ 13:27:49:DEBUG {select_return 1} > 03/4/4 @ 13:27:49:DEBUG {server_start} Starting service login > 03/4/4 @ 13:27:49:DEBUG {main_loop} active_services = 2 > 03/4/4 @ 13:27:49:DEBUG {exec_server} duping 9 > ---- end ---- > > > parallel-a043 のrloginによるログイン時に記録される > > /var/log/messages のログ > --- begin ---- > Apr 4 13:28:49 parallel-a043 pam_rhosts_auth[6153]: allowed to root @ parallel > -a042.cogni.kumamoto-u.ac.jp as root > Apr 4 13:28:49 parallel-a043 login(pam_unix)[6209]: session opened for user > root by (uid=0) > Apr 4 13:28:49 parallel-a043 login -- root[6209]: ROOT LOGIN ON pts/2 FROM p > arallel-a042 > ---- end ---- この log から考えると, parallel-a042 の rhosts 認証 (すなわち, 192.168.2.42 から parallel-a042.cogni.kumamoto-u.ac.jp の変換) に時間がかかっているような気がします. hostname の検索順序などは大丈夫でしょうか? from Kameyama Toyohisa From nakira @ cogni.cs.kumamoto-u.ac.jp Fri Apr 4 18:27:20 2003 From: nakira @ cogni.cs.kumamoto-u.ac.jp (akira nakagawa) Date: Fri, 4 Apr 2003 18:27:20 +0900 Subject: [SCore-users-jp] Re: rloginでログインするのにちょうど60秒かかってしまう In-Reply-To: <20030404064004.0EE1220024@neal.il.is.s.u-tokyo.ac.jp> References: <20030404151333.5e2bd3c0.nakira@cogni.cs.kumamoto-u.ac.jp> <20030404064004.0EE1220024@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <20030404182720.052e04b4.nakira@cogni.cs.kumamoto-u.ac.jp> 中川です。 亀山様,早速のお返事ありがとう御座いました。 この問題には3日間くらい悩まされています。 > 亀山です. > この log から考えると, parallel-a042 の rhosts 認証 > (すなわち, 192.168.2.42 から parallel-a042.cogni.kumamoto-u.ac.jp の変換) > に時間がかかっているような気がします. > hostname の検索順序などは大丈夫でしょうか? まだまだlinuxに慣れていなくてどこで検索順序を入れ替えられるのか 分かりませんが,調べて試してみました。 /etc/host.conf は以下のようになっています。 order hosts,bind /etc/nsswitch.conf を以下のように変更してみました。 hosts: files nisplus nis dns ↓ hosts: dns files nisplus nis しかし,症状は変わりませんでした。 また,parallel-a043 において以下のようにホスト名の 検索にかかる時間を調べてみました。 [root @ parallel-a043 root]# time host 192.168.2.42 42.2.168.192.in-addr.arpa domain name pointer parallel-a042.cogni.kumamoto-u.ac.jp. real 0m0.351s user 0m0.020s sys 0m0.010s [root @ parallel-a043 etc]# time host a042 a042.cogni.kumamoto-u.ac.jp is an alias for parallel-a042.cogni.kumamoto-u.ac.jp. parallel-a042.cogni.kumamoto-u.ac.jp has address 192.168.2.42 real 0m0.017s user 0m0.020s sys 0m0.000s ホスト名の検索には殆ど時間がかかっていないようです。 もしかしたら思いっきりはずしているかもしれませんが, よろしくお願いします。 From kameyama @ pccluster.org Fri Apr 4 19:04:05 2003 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Fri, 04 Apr 2003 19:04:05 +0900 Subject: [SCore-users-jp] Re: rloginでログインするのにちょうど60秒かかってしまう In-Reply-To: Your message of "Fri, 04 Apr 2003 18:27:20 JST." <20030404182720.052e04b4.nakira@cogni.cs.kumamoto-u.ac.jp> Message-ID: <20030404100406.0813420040@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <20030404182720.052e04b4.nakira @ cogni.cs.kumamoto-u.ac.jp> akira nakagawa wrotes: > まだまだlinuxに慣れていなくてどこで検索順序を入れ替えられるのか > 分かりませんが,調べて試してみました。 > > /etc/host.conf は以下のようになっています。 > order hosts,bind > > /etc/nsswitch.conf を以下のように変更してみました。 > hosts: files nisplus nis dns > ↓ > hosts: dns files nisplus nis > > しかし,症状は変わりませんでした。 そうすると, 別の問題のようですね. 奥の手として rlogind で strace をかけてみてみるとなにかわかるかもしれません. /etc/xinetd.d/rlogin の記述の server 部分を server = /usr/bin/strace server_args = -o /tmp/xxx /usr/sbin/in.rlogind と変更して, xinetd を reload し, rlogin が止まっているときに /tmp/xxx を眺めると rlogind がどんなシステムコールで止まっているか みれば, もう少し何かわかるかもしれません. from Kameyama Toyohisa From nakira @ boreas.dti.ne.jp Fri Apr 4 22:29:11 2003 From: nakira @ boreas.dti.ne.jp (akira nakagawa) Date: Fri, 4 Apr 2003 22:29:11 +0900 Subject: [SCore-users-jp] Re:Re: rloginでログインするのにちょうど60 秒かかってしまう 解決しました。 In-Reply-To: <20030404100406.0813420040@neal.il.is.s.u-tokyo.ac.jp> References: <20030404182720.052e04b4.nakira@cogni.cs.kumamoto-u.ac.jp> <20030404100406.0813420040@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <20030404222911.635e1443.nakira@boreas.dti.ne.jp> 亀山様,Replayありがとう御座います。おかげで解決することが出来ました。 申し訳ないくらいアホな原因だったのですが,,, ^^;) > 亀山です. > 奥の手として > rlogind で strace をかけてみてみるとなにかわかるかもしれません. > > /etc/xinetd.d/rlogin の記述の server 部分を > server = /usr/bin/strace > server_args = -o /tmp/xxx /usr/sbin/in.rlogind > と変更して, xinetd を reload し, rlogin が止まっているときに > /tmp/xxx を眺めると rlogind がどんなシステムコールで止まっているか > みれば, もう少し何かわかるかもしれません. 以下のように,時間のかかっている原因を見つけました。 ---- begin ---- 2674 socket(PF_INET, SOCK_DGRAM, IPPROTO_IP) = 7 <0.000009> 2674 connect(7, {sin_family=AF_INET, sin_port=htons(53), sin_addr=inet_addr("192.168.2.21")}}, 28) = 0 <0.000007> 2674 send(7, "_\277\1\0\0\1\0\0\0\0\0\0\rparallel-a024\0\0\1\0\1", 31, 0) = 31 <0.000009> 2674 gettimeofday({1049457950, 885609}, NULL) = 0 <0.000006> 2674 poll([{fd=7, events=POLLIN}], 1, 5000) = 0 <5.006641> 2674 send(7, "_\277\1\0\0\1\0\0\0\0\0\0\rparallel-a024\0\0\1\0\1", 31, 0) = 31 <0.000036> 2674 gettimeofday({1049457955, 892466}, NULL) = 0 <0.000006> 2674 poll([{fd=7, events=POLLIN}], 1, 5000) = 0 <5.009780> 2674 close(7) = 0 <0.000020> ---- end ---- 何が原因だったかというと,DNSに登録されていない(そのうち登録する予定だった) ホストネームを /root/.rhosts に書き込んでいたのが原因でした。 ( parallel-a024 から parallel-a029 ) 律儀にも rlogind は /root/.rhosts に書かれているホストネームを上の方から 順番に検索するようで,合計60秒もの時間がかかっていました。 うーん,はっきり言ってアホなはまり方をしました。 亀山様の助言が無ければずっと苦しんでいたところです。 亀山様,本当にありがとう御座いました。 それでは。 From James_ODell @ brown.edu Sat Apr 5 08:14:36 2003 From: James_ODell @ brown.edu (James O'Dell) Date: 04 Apr 2003 18:14:36 -0500 Subject: [SCore-users-jp] Re: [SCore-users] Compiling GROMACS In-Reply-To: <20030402001737.ADEAB20058@neal.il.is.s.u-tokyo.ac.jp> References: <20030402001737.ADEAB20058@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <1049498076.29154.407.camel@cr1> For some reason, I cannot get gromacs to compile with x using the supplied scripts, but I did find another way. Most of the gromacs code is serial, so I compile GROMACS of it without MPI. The makes the compilation much faster. Gromacs has an option to add a suffix to commands and allows one to make the mpi file separately, so I compile those file with MPI enabled, X turned off and a suffix of _mpi. Jim On Tue, 2003-04-01 at 19:17, kameyama @ pccluster.org wrote: > In article <1049233954.21103.109.camel @ cr1> "James O'Dell" wrotes: > > I am trying to compile GROMACS with X enabled. > > Mow the SCore compilers try to link all of the programs > > statically but X likes to be linked dynamically. > > 1. Please try -nostatic option. > SCore compilers default is statically link. > But -nostatic option force dybamically link. > Note that SCore is not able to checkpoint/restore > dynamically program. > > 2. Please add -ldl library to link the program. > If you add this option, you can X11 programs to be statically linked. > SCore demo program (mandel and pmandel) is linked with -ldl option. > > from Kameyama Toyohisa _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From James_ODell @ brown.edu Sat Apr 5 07:56:14 2003 From: James_ODell @ brown.edu (James O'Dell) Date: 04 Apr 2003 17:56:14 -0500 Subject: [SCore-users-jp] [SCore-users] OpenPBS with Maui Scheduler Message-ID: <1049496974.29154.401.camel@cr1> Has anyone tried to use OpenPBS with the Maui scheduler. I have gotten everything to compile and allocate resources (aside from the Nasty confusion over nodes and processors). The problem is that with the Maui scheduler, PBS doesn't try to execute scout on the front-end processor it tries to execute my shell script on the first processor in the PBS_NODEFILE list. Jim _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From M.Newiger @ web.de Sun Apr 6 20:46:44 2003 From: M.Newiger @ web.de (M.Newiger) Date: Sun, 06 Apr 2003 13:46:44 +0200 Subject: [SCore-users-jp] [SCore-users] Integarting SCore into existing NIS-Environment Message-ID: <3E9013A4.F3CE01D2@web.de> Hi, is it possible to integrate SCore into an existing NIS-Environment. If so, how must I do this? Regards M.Newiger _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From rene.storm @ emplics.com Mon Apr 7 16:17:50 2003 From: rene.storm @ emplics.com (Rene Storm) Date: Mon, 7 Apr 2003 09:17:50 +0200 Subject: [SCore-users-jp] AW: [SCore-users] Integarting SCore into existing NIS-Environment Message-ID: <29B376A04977B944A3D87D22C495FB23012715@vertrieb.emplics.com> Hello Martin, try http://www.linux.org/docs/ldp/howto/NIS-HOWTO/index.html to set up a nis slave server. Be sure, you don't use ypserv-2.2-9 from standart RedHat 7.3, it has some small bugs with ypinit -s. ypserv-2.5-2.7x is the lastest Update that RedHat offers. Best Regards to Olaf and Peter..... ;o) René Storm emplics AG Merkurring 46 D-22143 Hamburg http://www.emplics.com mailto:Rene.Storm @ emplics.com -----Ursprüngliche Nachricht----- Von: M.Newiger [mailto:M.Newiger @ web.de] Gesendet: Sonntag, 6. April 2003 13:47 An: score-users @ pccluster.org Betreff: [SCore-users] Integarting SCore into existing NIS-Environment Hi, is it possible to integrate SCore into an existing NIS-Environment. If so, how must I do this? Regards M.Newiger _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From James_ODell @ Brown.edu Wed Apr 9 00:14:39 2003 From: James_ODell @ Brown.edu (James O'Dell) Date: 08 Apr 2003 11:14:39 -0400 Subject: [SCore-users-jp] [SCore-users] PBS, MAUI, and SCore Message-ID: <1049814878.11150.35.camel@cr1> Maui Users: I am trying to get Maui and PBS to properly schedule jobs for SCore (www.pccluster.org) My main problem seems to be that SCore depends on some node properties that MAUI doesn't pass on before trying to start the job. I made a fix as outlined below but I don't believe that I have properly parsed NeedNodes in all of its full glory (4:ppn=2:score+2:ppn=4+1=ppn=8) Does the erst of Maui handle a full resource specification? If so, is there a more elegant (and correct) way to do what I am trying to do below? Thanks, Jim In file server/PBSI I make the following changes: Declare: char *NodeAttributes; Set NodeAttributes: NodeAttributes = J->NeedNodes; while (*NodeAttributes != '\0' && (*NodeAttributes == ':' || isdigit(*NodeAttributes))) NodeAttributes++; DBG(7,fPBS) DPrint("NODE ATTRIBUTES: %s\n", NodeAttributes); Remove: /* if (J->NodeList[tindex].TC == 1) { MUStrCat(HostList,tmpHostName,sizeof(HostList)); } else { sprintf(HostList,"%s%s:ppn=%d", HostList, tmpHostName, J->NodeList[tindex].TC); } */ } /* END for (tindex) */ and Add Affix Attributes to each node: sprintf(HostList,"%s%s", HostList, tmpHostName); if (*NodeAttributes != '\0') sprintf(HostList, "%s:%s", HostList, NodeAttributes); _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From James_ODell @ brown.edu Wed Apr 9 01:36:36 2003 From: James_ODell @ brown.edu (James O'Dell) Date: 08 Apr 2003 12:36:36 -0400 Subject: [SCore-users-jp] [SCore-users] Re: [Mauiusers] Maui with OpenPBS and SCore In-Reply-To: References: Message-ID: <1049819796.11684.55.camel@cr1> I'm not sure that I'm fully qualified to answer all of your questions, so I've CC'd the SCore useres mailing lits. First off, SCore has made some minor changes to PBS directly related to the issue of who is the master. A SCore job gets launched on the cluster front-end node. The front end node establishes the compute environment by executing the "scout" command with a node-list. First, what is the best > way to determine which node is the master? Currently, the SCore modifications to PBS look for a SCore property in the nodelist and then ask the front-end to establish the environment. Is it guaranteed to have > certain node features. The master must be on the front-end node and have the "scout" command available. Should the master only receive SCore jobs or are > other jobs fair game. The master can only receive SCore jobs if they are so marked by the SCore attribute. Without the SCore attribute, the node can execute other kinds of parallel jobs. There might be other attributes that would be nice to pass through to SCore, such as the network interface to use but I am not sure, in general how to answer your question. In the PBS node file, an attribute, score, is added to indicate which nodes are capable of running SCore jobs. I'm sure that the SCore developers can be more precise that I can, I've only been working with the system for a few weeks. Thanks for the support! Jim > On Tue, 2003-04-08 at 12:43, help @ supercluster.org wrote: > James, > > Maui is currently unaware of SCore and any of its dependencies. With > luck, this will not be true by the end of the week however! To help you > out, we need more information about a typical SCore cluster including its > layout, and how jobs are supposed to be launched. First, what is the best > way to determine which node is the master? Is it guaranteed to have > certain node features. Should the master only receive SCore jobs or are > other jobs fair game. Are there other node attributes which have > significance? Does the scheduler launch a single task of the job to the > master? How does it tell the master which nodes are available for its > use? Is the master constrained to use these nodes? > > Thanks! > Supercluster Development Group > > On 4 Apr 2003, James O'Dell wrote: > > > Has anyone tried the combination above? > > > > I have dropped in Maui and gotten it to schedule jobs > > in the SCore/OpenPBS environment. > > > > Using the standard OpenPBS scheduler everything interacts > > with SCore correctly (i.e., if follows the correct protocol > > to spawn a compute job) > > > > Using Maui causes OpenPBS to use an incorrect procedure to > > spawn a job. (In the SCore environment, one executes a > > job - scout, which then gets everything else going. scout only > > exists on the front-end node) Using the maui scheduler, OpenPBS tries to > > run scout on one of the compute nodes. > > > > Typically one tells OpenPBS about SCore by doing > > > > qsub -l nodes=4:score > > > > Would there be any reason that Maui doesn't pass on the score > > attribute correctly? > > > > Thanks, > > Jim > > _______________________________________________ > > mauiusers mailing list > > mauiusers @ supercluster.org > > http://supercluster.org/mailman/listinfo/mauiusers > > _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From Yamamoto.Takaya @ wrc.melco.co.jp Wed Apr 9 19:10:24 2003 From: Yamamoto.Takaya @ wrc.melco.co.jp (Takaya Yamamoto) Date: Wed, 09 Apr 2003 19:10:24 +0900 Subject: [SCore-users-jp] シングル CPUとデュアルCPU In-Reply-To: <20030328072750.CA5202005C@neal.il.is.s.u-tokyo.ac.jp> References: <"Your message of Fri, 28 Mar 2003 15:48:25 JST."<5.0.2.5.2.20030328153729.033c49f0@133.141.16.40> Message-ID: <5.0.2.5.2.20030409190107.0345ce70@133.141.16.40> 亀山様 山本です。 教えていただいた方法でインストールしたのですが、 計算ホストが起動できませんでした。 計算ホスト起動時に、LILOで"linux"と"linux up"の2つが選択でき、 デフォルトの"linux"が起動されるのですが、 しばらくメッセージが出た後画面が固まります。 (メッセージの内容は明日送ります) もし、"linux up"を選択したら、起動できました。 しかし、/etc/lilo.confを見ると、カーネルイメージ名は、 linux が ***SCOREsmp linux up が ***SCORE なので、LILOで"linux"が起動するのが正しいような気がするのですが、 どうでしょうか? 以上 At 16:27 03/03/28 +0900, kameyama @ pccluster.org wrote: >亀山です. > >In article <5.0.2.5.2.20030328153729.033c49f0 @ 133.141.16.40> Takaya >Yamamoto wrotes: > > 今、 > >  サーバー兼計算ホスト:シングルCPU > >  計算ホスト2台:共にデュアルCPU > > の3PC(5CPU)の構成にしようとしています。 > > > > EITでインストールしようとしているのですが、 > > Group Creationのときに、シングルCPUのPCとデュアルCPUのPCを > > 同じグループに混在させる方法がわかりません。 > > どのようにすればいいでしょうか? > >(直接 scorehosts.db を編集したほうが早いかも知れませんが...) >group を 2 つ作成します. >まず, SMP だけのグループを作成して. ここには shmem を入れます. >次に全部のホストを含む別の group を作成して, そちらには shmem を >入れないようにします. > >最終的な scorehosts.db は network は host ごとに指定されますので, >後者のグループを使用すれば, 5 CPU 使用することができると思います. > > from Kameyama Toyohisa >_______________________________________________ >SCore-users-jp mailing list >SCore-users-jp @ pccluster.org >http://www.pccluster.org/mailman/listinfo/score-users-jp From kameyama @ pccluster.org Wed Apr 9 19:18:36 2003 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Wed, 09 Apr 2003 19:18:36 +0900 Subject: [SCore-users-jp] シングル CPUとデュアルCPU In-Reply-To: Your message of "Wed, 09 Apr 2003 19:10:24 JST." <5.0.2.5.2.20030409190107.0345ce70@133.141.16.40> Message-ID: <20030409101836.66C7E20056@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <5.0.2.5.2.20030409190107.0345ce70 @ 133.141.16.40> Takaya Yamamoto wrotes: > 計算ホスト起動時に、LILOで"linux"と"linux up"の2つが選択でき、 > デフォルトの"linux"が起動されるのですが、 > しばらくメッセージが出た後画面が固まります。 > (メッセージの内容は明日送ります) > > もし、"linux up"を選択したら、起動できました。 > しかし、/etc/lilo.confを見ると、カーネルイメージ名は、 > linux が ***SCOREsmp > linux up が ***SCORE > なので、LILOで"linux"が起動するのが正しいような気がするのですが、 > どうでしょうか? linux のほうが SMP 用の kernel, linux up のほうが single CPU (Uni Processor) 用の kernel になります. 当然, linux up で立ち上がった場合は CPU は一つしか使用できませんので, linux のほうが立ち上がる必要があると思います. from Kameyama Toyohisa From James_ODell @ Brown.edu Tue Apr 15 01:50:56 2003 From: James_ODell @ Brown.edu (James O'Dell) Date: 14 Apr 2003 12:50:56 -0400 Subject: [SCore-users-jp] [SCore-users] Running NTPD on the compute nodes Message-ID: <1050339056.17914.88.camel@cr1> I wanted to make sure all of the nodes in my cluster had the same time so I implemented NTPD on them. I order to do this I had to copy libcap.so.1.10 to /lib on each of the nodes as NTPD was looking for it. Will this cause any problems? If not, could you please include this in the next distribution? Thanks, Jim _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From kameyama @ pccluster.org Tue Apr 15 08:55:07 2003 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Tue, 15 Apr 2003 08:55:07 +0900 Subject: [SCore-users-jp] Re: [SCore-users] Running NTPD on the compute nodes In-Reply-To: Your message of "14 Apr 2003 12:50:56 JST." <1050339056.17914.88.camel@cr1> Message-ID: <20030414235508.2981E20059@neal.il.is.s.u-tokyo.ac.jp> In article <1050339056.17914.88.camel @ cr1> "James O'Dell" wrotes: > I wanted to make sure all of the nodes in my cluster had the same time > so I implemented NTPD on them. > > I order to do this I had to copy libcap.so.1.10 to /lib on each of the > nodes as NTPD was looking for it. > > Will this cause any problems? If not, could you please include this > in the next distribution? No probrem. I forget to include libcap rpm on SCore CDROM. I will include this RPM file in the next release. from Kameyama Toyohisa _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From Yamamoto.Takaya @ wrc.melco.co.jp Tue Apr 15 18:40:40 2003 From: Yamamoto.Takaya @ wrc.melco.co.jp (Takaya Yamamoto) Date: Tue, 15 Apr 2003 18:40:40 +0900 Subject: [SCore-users-jp] シングル CPUとデュアルCPU In-Reply-To: <20030409101836.66C7E20056@neal.il.is.s.u-tokyo.ac.jp> References: <"Your message of Wed, 09 Apr 2003 19:10:24 JST."<5.0.2.5.2.20030409190107.0345ce70@133.141.16.40> Message-ID: <5.0.2.5.2.20030415183331.034fd2f0@133.141.16.40> 山本です。 At 19:18 03/04/09 +0900, kameyama @ pccluster.org wrote: >亀山です. > >In article <5.0.2.5.2.20030409190107.0345ce70 @ 133.141.16.40> Takaya >Yamamoto wrotes: > > 計算ホスト起動時に、LILOで"linux"と"linux up"の2つが選択でき、 > > デフォルトの"linux"が起動されるのですが、 > > しばらくメッセージが出た後画面が固まります。 > > (メッセージの内容は明日送ります) メッセージはそのときによっていろいろで、 ときには画面が真っ暗になってしまいます。 SCoreの問題ではないようですね。 何か大事なことを忘れているのでしょうが、 分かったことがありましたら、また連絡します。 MB: CUV4X-DLS (Dual Socket 370、ASUSTEK) CPU: Pentium III 933MHz Coppermine 以上 From M.Newiger @ deltacomputer.de Wed Apr 16 08:36:55 2003 From: M.Newiger @ deltacomputer.de (Martin Newiger) Date: Wed, 16 Apr 2003 01:36:55 +0200 Subject: [SCore-users-jp] [SCore-users] SCore 5.2 and Intel 82546EB-NIC Message-ID: Hi, does SCore 5.2 work with the Intel 82546EB-NIC-Chip? I can't install it. Does 5.4 support it? Is there any way to install from other NICs like D-Link DGE550SX? >Regards >M. Newiger > _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From kameyama @ pccluster.org Wed Apr 16 09:41:39 2003 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Wed, 16 Apr 2003 09:41:39 +0900 Subject: [SCore-users-jp] Re: [SCore-users] SCore 5.2 and Intel 82546EB-NIC In-Reply-To: Your message of "Wed, 16 Apr 2003 01:36:55 JST." Message-ID: <20030416004139.36F8B20059@neal.il.is.s.u-tokyo.ac.jp> In article Martin Newiger wrotes: > does SCore 5.2 work with the Intel 82546EB-NIC-Chip? I can't install it. > Does 5.4 support it? Intel 82546EB-NIC is supported on SCore 5.2 and SCore 5.4. If you want to use EIT, please select 1Gbps_Ethernet in select boot network device window. > Is there any way to install from other NICs like > D-Link DGE550SX? At first, I think you must get linux device driver to D-Link ftp site: ftp://ftp.dlink.com/NIC/dge550SX/Drivers/dge550SX_driver_20200.zip (The zip file include driver for linux.) Because there is no the driver's information in linux kernel and redhat PCI database, you cannot use the NIC for network installation (include EIT). So you must install SCore to use another NIC, and install driver for DGE550SX, and create configuration file for PM/Ethernet. from Kameyama Toyohisa _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From M.Newiger @ deltacomputer.de Thu Apr 17 07:23:05 2003 From: M.Newiger @ deltacomputer.de (Martin Newiger) Date: Thu, 17 Apr 2003 00:23:05 +0200 Subject: [SCore-users-jp] [SCore-users] SCore and IPMI Message-ID: Hi, I just installed SCore (5.2). All the nodes and the master have a IPMI-Card installed. All worked fine until I configured the IPMI-Cards. After I changed IPs and MAC-Adresses of the Cards, I was unable to ping the nodes and they couldn't communicate with the master. I tried other cables, resetted the switch but nothing helped. Then I removed the IMPI-card from the master and after a reboot there was communication between the nodes and the master. Is it possible that the IPMI-card within the master disturbes SCore? >Regards >Martin Newiger > _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From ishikawa @ is.s.u-tokyo.ac.jp Thu Apr 17 07:50:07 2003 From: ishikawa @ is.s.u-tokyo.ac.jp (Yutaka Ishikawa) Date: Thu, 17 Apr 2003 07:50:07 +0900 (JST) Subject: [SCore-users-jp] Re: [SCore-users] SCore and IPMI In-Reply-To: References: Message-ID: <20030417.075007.861031699.ishikawa@is.s.u-tokyo.ac.jp> Hi, > I just installed SCore (5.2). All the nodes and the master have a > IPMI-Card installed. All worked fine until I configured the IPMI-Cards. > After I changed IPs and MAC-Adresses of the Cards, I was unable to ping > the nodes and they couldn't communicate with the master. I tried other > cables, resetted the switch but nothing helped. Then I removed the > IMPI-card from the master and after a reboot there was communication > between the nodes and the master. Is it possible that the IPMI-card > within the master disturbes SCore? I have questions here: i) Does this happen using another kernel ? ii) If not, which kernel version works ? iii) Does the kernel include an IPMI driver and if so, which version ? iv) Which IPMI card are you using ? -- Yutaka _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From nrcb @ streamline-computing.com Thu Apr 17 17:23:32 2003 From: nrcb @ streamline-computing.com (Nick Birkett) Date: Thu, 17 Apr 2003 09:23:32 +0100 Subject: [SCore-users-jp] [SCore-users] 5.4 mcp Message-ID: <200304170923.32756.nrcb@streamline-computing.com> I notice there are several lanai mcp's in /opt/score/share/lanai. lanaiM2k.mcp lanaiM2k-safe.mcp Is this an alternative control program ? What is the difference ? Cheers, Nick _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From s-sumi @ bd6.so-net.ne.jp Thu Apr 17 17:58:21 2003 From: s-sumi @ bd6.so-net.ne.jp (=?iso-2022-jp?b?cy1zdW1pIBskQiF3GyhCIGJkNi5zby1uZXQubmUuanA=?=) Date: Thu, 17 Apr 2003 17:58:21 +0900 (JST) Subject: [SCore-users-jp] Re: [SCore-users] 5.4 mcp In-Reply-To: <200304170923.32756.nrcb@streamline-computing.com> References: <200304170923.32756.nrcb@streamline-computing.com> Message-ID: <20030417.175821.730556973.s-sumi@bd6.so-net.ne.jp> Hi Nick. From: Nick Birkett Subject: [SCore-users] 5.4 mcp Date: Thu, 17 Apr 2003 09:23:32 +0100 Message-ID: <200304170923.32756.nrcb @ streamline-computing.com> nrcb> I notice there are several lanai mcp's in /opt/score/share/lanai. nrcb> nrcb> lanaiM2k.mcp lanaiM2k-safe.mcp The lanaiM2k-safe.mcp is a performance-down (no optimization) version of mcp for testing. Shinji nrcb> Is this an alternative control program ? What is the difference ? nrcb> nrcb> Cheers, nrcb> nrcb> Nick nrcb> _______________________________________________ nrcb> SCore-users mailing list nrcb> SCore-users @ pccluster.org nrcb> http://www.pccluster.org/mailman/listinfo/score-users nrcb> ----- Shinji Sumimoto Fujitsu Labs _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From kohe @ wuchang.cs.hkg.ac.jp Thu Apr 24 10:32:51 2003 From: kohe @ wuchang.cs.hkg.ac.jp (H.ZHU) Date: Thu, 24 Apr 2003 10:32:51 +0900 Subject: [SCore-users-jp] root In-Reply-To: <20030404151333.5e2bd3c0.nakira@cogni.cs.kumamoto-u.ac.jp> References: <20030404151333.5e2bd3c0.nakira@cogni.cs.kumamoto-u.ac.jp> Message-ID: <20030424101328.C16E.KOHE@wuchang.cs.hkg.ac.jp> 広島の朱と申します。 長くMLで勉強させて頂きました。 2年前にScoreを使ってSunWorkStationLXのクラスタを作ろうと思って、何回試 しました。が、機器が古くって(HDD:500MB/1GB、MEM:16MB、No-FDD、10-LAN)、 知識が足りないので、失敗しました。別のことを配慮して、最後に Debian2.2r2+MPICH1.2.3 でクラスタを作りました。 管理上便利(一斉再起動&停止)のため、クラスタ内にrootでNo-PassWordでロ グインができるようになりたいのです。どうすればよろしいのですか。ご存知方 が是非教えていただきたいのです。ちなみに、一般ユーザはそのようになってお ります。このMLの宗旨とちょっと違うか知りませんが、どうぞ宜しくお願いいた します。 ****H.ZHU****** From kameyama @ pccluster.org Thu Apr 24 11:03:44 2003 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Thu, 24 Apr 2003 11:03:44 +0900 Subject: [SCore-users-jp] root In-Reply-To: Your message of "Thu, 24 Apr 2003 10:32:51 JST." <20030424101328.C16E.KOHE@wuchang.cs.hkg.ac.jp> Message-ID: <20030424020344.CAE872005B@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <20030424101328.C16E.KOHE @ wuchang.cs.hkg.ac.jp> "H.ZHU" wrotes: > 2年前にScoreを使ってSunWorkStationLXのクラスタを作ろうと思って、何回試 > しました。が、機器が古くって(HDD:500MB/1GB、MEM:16MB、No-FDD、10-LAN)、 > 知識が足りないので、失敗しました。 現在の SCore では SUN のマシンはサポートしていません. SCore 2.x までは SUN OS 4.x + Myrinet をサポートしていましたが, PM/Ethernet などはサポートしていませんでした. ということで, 該当機種で SCore を動かすことは困難だと思います. > 管理上便利(一斉再起動&停止)のため、クラスタ内にrootでNo-PassWordでロ > グインができるようになりたいのです。どうすればよろしいのですか。ご存知方 > が是非教えていただきたいのです。ちなみに、一般ユーザはそのようになってお > ります。 まず, 各ホストの ~root/.rhosts に rlogin/rsh したいホストを書いてください. たぶん, /etc/hosts.equiv をコピーするだけでよいと思います. 一般ユーザは /etc/hosts.equiv をみるのですが, root はみませんので... これで rlogin/rsh できない場合は個別のシステムによって異なります. あいにく私は debian でこのあたりの設定を確認することはできないのですが, redhat 7.x では /etc/securetty に rsh なり rlogin なりを書く必要がありました. from Kameyama Toyohisa From nakata @ bestsystems.co.jp Thu Apr 24 11:05:10 2003 From: nakata @ bestsystems.co.jp (Hisaho Nakata) Date: Thu, 24 Apr 2003 11:05:10 +0900 Subject: [SCore-users-jp] root In-Reply-To: <20030424101328.C16E.KOHE@wuchang.cs.hkg.ac.jp> References: <20030404151333.5e2bd3c0.nakira@cogni.cs.kumamoto-u.ac.jp> <20030424101328.C16E.KOHE@wuchang.cs.hkg.ac.jp> Message-ID: <20030424110510.758f8d80.nakata@bestsystems.co.jp> 中田@ベストシステムズです。 >管理上便利(一斉再起動&停止)のため、クラスタ内にrootでNo-PassWordでロ >グインができるようになりたいのです。どうすればよろしいのですか。ご存知 >方が是非教えていただきたいのです。ちなみに、一般ユーザはそのようになっ >ております。このMLの宗旨とちょっと違うか知りませんが、どうぞ宜しくお願 >いいたします。 各ノードの/etc/securettyファイルに rsh という行を追加してください。 あとは、各ノードの/root/.rhostsに/etc/hosts.equivと同じように password認証を行わなくてもいいノードのIP or ホスト名を追加してください。 ======================================================================== 株式会社 ベストシステムズ システムソリューション事業部テクニカルサポート 中田 寿穗 (nakata @ bestsystems.co.jp) 〒111-0054 東京都台東区鳥越2-7-4 ヘブン鳥越 1-2F 東京第二事業所 Tel: 03-5825-0652 Fax: 03-5825-0645 ======================================================================== From kohe @ wuchang.cs.hkg.ac.jp Thu Apr 24 15:38:46 2003 From: kohe @ wuchang.cs.hkg.ac.jp (H.ZHU) Date: Thu, 24 Apr 2003 15:38:46 +0900 Subject: [SCore-users-jp] root In-Reply-To: <20030424110510.758f8d80.nakata@bestsystems.co.jp> References: <20030424101328.C16E.KOHE@wuchang.cs.hkg.ac.jp> <20030424110510.758f8d80.nakata@bestsystems.co.jp> Message-ID: <20030424151543.C177.KOHE@wuchang.cs.hkg.ac.jp> 朱@広島です。 質問に対して、亀山さんと中田さんから早々お丁寧に教えていただき有難うござ います。試した結果は以下のようになっておりますので、ご報告いたします。 1)/etc/hosts.equiv > /root/.rhostsにコピーするだけ、rshで再起動&停止 が出来した。 2)1)+rloginとrsh> >  /etc/securettyに追加しても、rootがNo-PassWord とPassWordで両方rloginできないのです。 そのとき、/var/log/auth.logに以下のメッセージがありました。もしかすると、 PAMをしっかりインストールしてなかったかと思いますので、正しいのですか? Apr 24 14:34:34 zcp0 rlogind[241]: PAM unable to dlopen(/lib/security/pam_crackl ib.so) Apr 24 14:34:34 zcp0 rlogind[241]: PAM [dlerror: /lib/security/pam_cracklib.so: cannot open shared object file: No such file or directory] Apr 24 14:34:34 zcp0 rlogind[241]: PAM adding faulty module: /lib/security/pam_c racklib.so 以上です。実は、このようなテストは前にもしましが。結果が同じです。 どうぞ宜しくお願いいたします。 On Thu, 24 Apr 2003 11:03:44 +0900 kameyama @ pccluster.org wrote: > 亀山です. > > In article <20030424101328.C16E.KOHE @ wuchang.cs.hkg.ac.jp> "H.ZHU" wrotes: > > 2年前にScoreを使ってSunWorkStationLXのクラスタを作ろうと思って、何回試 > > しました。が、機器が古くって(HDD:500MB/1GB、MEM:16MB、No-FDD、10-LAN)、 > > 知識が足りないので、失敗しました。 > > 現在の SCore では SUN のマシンはサポートしていません. > SCore 2.x までは SUN OS 4.x + Myrinet をサポートしていましたが, > PM/Ethernet などはサポートしていませんでした. > > ということで, 該当機種で SCore を動かすことは困難だと思います. > > > 管理上便利(一斉再起動&停止)のため、クラスタ内にrootでNo-PassWordでロ > > グインができるようになりたいのです。どうすればよろしいのですか。ご存知方 > > が是非教えていただきたいのです。ちなみに、一般ユーザはそのようになってお > > ります。 > > まず, 各ホストの > ~root/.rhosts > に rlogin/rsh したいホストを書いてください. > たぶん, > /etc/hosts.equiv > をコピーするだけでよいと思います. > 一般ユーザは /etc/hosts.equiv をみるのですが, root はみませんので... > > これで rlogin/rsh できない場合は個別のシステムによって異なります. > あいにく私は debian でこのあたりの設定を確認することはできないのですが, > redhat 7.x では > /etc/securetty > に rsh なり rlogin なりを書く必要がありました. > > from Kameyama Toyohisa > On Thu, 24 Apr 2003 11:05:10 +0900 Hisaho Nakata wrote: > 中田@ベストシステムズです。 > > >管理上便利(一斉再起動&停止)のため、クラスタ内にrootでNo-PassWordでロ > >グインができるようになりたいのです。どうすればよろしいのですか。ご存知 > >方が是非教えていただきたいのです。ちなみに、一般ユーザはそのようになっ > >ております。このMLの宗旨とちょっと違うか知りませんが、どうぞ宜しくお願 > >いいたします。 > > 各ノードの/etc/securettyファイルに > rsh > という行を追加してください。 > あとは、各ノードの/root/.rhostsに/etc/hosts.equivと同じように > password認証を行わなくてもいいノードのIP or ホスト名を追加してください。 > > ======================================================================== > 株式会社 ベストシステムズ > システムソリューション事業部テクニカルサポート > 中田 寿穗 (nakata @ bestsystems.co.jp) > > 〒111-0054 > 東京都台東区鳥越2-7-4 ヘブン鳥越 1-2F 東京第二事業所 > Tel: 03-5825-0652 > Fax: 03-5825-0645 > ======================================================================== > ****H.ZHU****** From tyokoi @ jodco.co.jp Thu Apr 24 16:46:01 2003 From: tyokoi @ jodco.co.jp (Takeshi Yokoi) Date: Thu, 24 Apr 2003 16:46:01 +0900 Subject: [SCore-users-jp] root References: <20030424101328.C16E.KOHE@wuchang.cs.hkg.ac.jp> <20030424110510.758f8d80.nakata@bestsystems.co.jp> <20030424151543.C177.KOHE@wuchang.cs.hkg.ac.jp> Message-ID: <3EA79639.DD5F8A7@jodco.co.jp> 外れていたらごめんなさい。  1、rootのrsh、rlogin 関係は/etc/hosts.equivに左右されないはずでは?    .rhostsだけで十分だと思います。僕のhosts.equivは空です。  2、多分rootのrhostsに”+”としか追加されてないのでは?    僕のは只”+”を追加しただけでは機能しなく、hostnameを    全部list-upしています。  3、直接関係ないと思うが、問題を切り分けるため/etc/pam.d/loginの    auth required /lib/security/pam_securetty.so    という行をcomment outしてください。                                 T,Yokoi "H.ZHU" wrote: > 朱@広島です。 > > 質問に対して、亀山さんと中田さんから早々お丁寧に教えていただき有難うござ > います。試した結果は以下のようになっておりますので、ご報告いたします。 > > 1)/etc/hosts.equiv > /root/.rhostsにコピーするだけ、rshで再起動&停止 > が出来した。 > > 2)1)+rloginとrsh> >  /etc/securettyに追加しても、rootがNo-PassWord > とPassWordで両方rloginできないのです。 > > そのとき、/var/log/auth.logに以下のメッセージが?りました。もしかすると、 > PAMをしっかりインストールしてなかったかと思いますので、正しいのですか? > > Apr 24 14:34:34 zcp0 rlogind[241]: PAM unable to dlopen(/lib/security/pam_crackl > ib.so) > Apr 24 14:34:34 zcp0 rlogind[241]: PAM [dlerror: /lib/security/pam_cracklib.so: > cannot open shared object file: No such file or directory] > Apr 24 14:34:34 zcp0 rlogind[241]: PAM adding faulty module: /lib/security/pam_c > racklib.so > > 以上です。実は、このようなテストは前にもしましが。結果が同じです。 > > どうぞ宜しくお願いいたします。 > > On Thu, 24 Apr 2003 11:03:44 +0900 > kameyama @ pccluster.org wrote: > > > 亀山です. > > > > In article <20030424101328.C16E.KOHE @ wuchang.cs.hkg.ac.jp> "H.ZHU" wrotes: > > > 2年前にScoreを使ってSunWorkStationLXのクラスタを作ろうと思って、何回試 > > > しました。が、機器が古くって(HDD:500MB/1GB、MEM:16MB、No-FDD、10-LAN)、 > > > 知識が足りないので、失敗しました。 > > > > 現在の SCore では SUN のマシンはサポートしていません. > > SCore 2.x までは SUN OS 4.x + Myrinet をサポートしていましたが, > > PM/Ethernet などはサポートしていませんでした. > > > > ということで, 該当機種で SCore を動かすことは困難だと思います. > > > > > 管理上便利(一斉再起動&停止)のため、クラスタ内にrootでNo-PassWordでロ > > > グインができるようになりたいのです。どうすればよろしいのですか。ご存知方 > > > が是非教えていただきたいのです。ちなみに、一般ユーザはそのようになってお > > > ります。 > > > > まず, 各ホストの > > ~root/.rhosts > > に rlogin/rsh したいホストを書いてください. > > たぶん, > > /etc/hosts.equiv > > をコピーするだけでよいと思います. > > 一般ユーザは /etc/hosts.equiv をみるのですが, root はみませんので... > > > > これで rlogin/rsh できない場合は個別のシステムによって異なります. > > ?いにく私は debian でこの?たりの設定を確認することはできないのですが, > > redhat 7.x では > > /etc/securetty > > に rsh なり rlogin なりを書く必要が?りました. > > > > from Kameyama Toyohisa > > > > On Thu, 24 Apr 2003 11:05:10 +0900 > Hisaho Nakata wrote: > > > 中田@ベストシステムズです。 > > > > >管理上便利(一斉再起動&停止)のため、クラスタ内にrootでNo-PassWordでロ > > >グインができるようになりたいのです。どうすればよろしいのですか。ご存知 > > >方が是非教えていただきたいのです。ちなみに、一般ユーザはそのようになっ > > >ております。このMLの宗旨とちょっと違うか知りませんが、どうぞ宜しくお願 > > >いいたします。 > > > > 各ノードの/etc/securettyファイルに > > rsh > > という行を追加してください。 > > ?とは、各ノードの/root/.rhostsに/etc/hosts.equivと同じように > > password認証を行わなくてもいいノードのIP or ホスト名を追加してください。 > > > > ======================================================================== > > 株式会社 ベストシステムズ > > システムソリューション事業部テクニカルサポート > > 中田 寿穗 (nakata @ bestsystems.co.jp) > > > > 〒111-0054 > > 東京都台東区鳥越2-7-4 ヘブン鳥越 1-2F 東京第二事業所 > > Tel: 03-5825-0652 > > Fax: 03-5825-0645 > > ======================================================================== > > > > ****H.ZHU****** > > _______________________________________________ > SCore-users-jp mailing list > SCore-users-jp @ pccluster.org > http://www.pccluster.org/mailman/listinfo/score-users-jp From kameyama @ pccluster.org Thu Apr 24 17:38:20 2003 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Thu, 24 Apr 2003 17:38:20 +0900 Subject: [SCore-users-jp] root In-Reply-To: Your message of "Thu, 24 Apr 2003 15:38:46 JST." <20030424151543.C177.KOHE@wuchang.cs.hkg.ac.jp> Message-ID: <20030424083820.95A8F20024@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <20030424151543.C177.KOHE @ wuchang.cs.hkg.ac.jp> "H.ZHU" wrotes: > 1)/etc/hosts.equiv > /root/.rhostsにコピーするだけ、rshで再起動&停止 > が出来した。 > > 2)1)+rloginとrsh> >  /etc/securettyに追加しても、rootがNo-PassWord > とPassWordで両方rloginできないのです。 > > そのとき、/var/log/auth.logに以下のメッセージがありました。もしかすると、 > PAMをしっかりインストールしてなかったかと思いますので、正しいのですか? 少なくても, PAM の設定を見直したほうが良さそうですね. あとは, 奥の手として, http://www.pccluster.org/pipermail/score-users-jp/2003-April/001357.html のような設定をして rlogind が何を参照しているかみてみるとか... from Kameyama Toyohisa From kohe @ wuchang.cs.hkg.ac.jp Thu Apr 24 18:33:26 2003 From: kohe @ wuchang.cs.hkg.ac.jp (H.ZHU) Date: Thu, 24 Apr 2003 18:33:26 +0900 Subject: [SCore-users-jp] root In-Reply-To: <3EA79639.DD5F8A7@jodco.co.jp> References: <20030424151543.C177.KOHE@wuchang.cs.hkg.ac.jp> <3EA79639.DD5F8A7@jodco.co.jp> Message-ID: <20030424182345.C17B.KOHE@wuchang.cs.hkg.ac.jp> 朱@広島です。 T,Yokoiさんから教えて頂いた第3番目方法で問題を解決しました。ありがとう ございました。> T,Yokoiさん、亀山さん。しかし、弄るファイルは、/etc/pam.d/login ではなく、/etc/pam.d/rloginです。 ついでのことですが、亀山さんから教えて頂いた/etc/xinetd.d/rlogin の記述 の server 部分を変更する方法は、Debianには/etc/xinetd.d/とrloginの設定す るファイルがないので、変更ができませんでした。いろいろ探しましたが、その ファイルをあたられませんでした。可能性として、どこにあるのでしょうか。 以上です。ご報告いたします。 On Thu, 24 Apr 2003 16:46:01 +0900 Takeshi Yokoi wrote: > 外れていたらごめんなさい。 > >  1、rootのrsh、rlogin 関係は/etc/hosts.equivに左右されないはずでは? >    .rhostsだけで十分だと思います。僕のhosts.equivは空です。 > >  2、多分rootのrhostsに”+”としか追加されてないのでは? >    僕のは只”+”を追加しただけでは機能しなく、hostnameを >    全部list-upしています。 > >  3、直接関係ないと思うが、問題を切り分けるため/etc/pam.d/loginの >    auth required /lib/security/pam_securetty.so >    という行をcomment outしてください。 > > >                                 T,Yokoi > On Thu, 24 Apr 2003 17:38:20 +0900 kameyama @ pccluster.org wrote: > 亀山です. > > In article <20030424151543.C177.KOHE @ wuchang.cs.hkg.ac.jp> "H.ZHU" wrotes: > > 1)/etc/hosts.equiv > /root/.rhostsにコピーするだけ、rshで再起動&停止 > > が出来した。 > > > > 2)1)+rloginとrsh> >  /etc/securettyに追加しても、rootがNo-PassWord > > とPassWordで両方rloginできないのです。 > > > > そのとき、/var/log/auth.logに以下のメッセージがありました。もしかすると、 > > PAMをしっかりインストールしてなかったかと思いますので、正しいのですか? > > 少なくても, PAM の設定を見直したほうが良さそうですね. > > あとは, 奥の手として, > http://www.pccluster.org/pipermail/score-users-jp/2003-April/001357.html > のような設定をして rlogind が何を参照しているかみてみるとか... > > from Kameyama Toyohisa > ****H.ZHU****** From kameyama @ pccluster.org Thu Apr 24 18:37:01 2003 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Thu, 24 Apr 2003 18:37:01 +0900 Subject: [SCore-users-jp] root In-Reply-To: Your message of "Thu, 24 Apr 2003 18:33:26 JST." <20030424182345.C17B.KOHE@wuchang.cs.hkg.ac.jp> Message-ID: <20030424093701.5EB3D20056@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <20030424182345.C17B.KOHE @ wuchang.cs.hkg.ac.jp> "H.ZHU" wrotes: > ついでのことですが、亀山さんから教えて頂いた/etc/xinetd.d/rlogin の記述 > の server 部分を変更する方法は、Debianには/etc/xinetd.d/とrloginの設定す > るファイルがないので、変更ができませんでした。いろいろ探しましたが、その > ファイルをあたられませんでした。可能性として、どこにあるのでしょうか。 これは inetd に何を使用しているかに依存します. xinetd ではなく, inetd としたら /etc/inetd.conf にあると思います. from Kameyama Toyohisa From kohe @ wuchang.cs.hkg.ac.jp Thu Apr 24 18:47:39 2003 From: kohe @ wuchang.cs.hkg.ac.jp (H.ZHU) Date: Thu, 24 Apr 2003 18:47:39 +0900 Subject: [SCore-users-jp] root In-Reply-To: <20030424093701.5EB3D20056@neal.il.is.s.u-tokyo.ac.jp> References: <20030424182345.C17B.KOHE@wuchang.cs.hkg.ac.jp> <20030424093701.5EB3D20056@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <20030424184527.EFD2.KOHE@wuchang.cs.hkg.ac.jp> 朱@広島です。 On Thu, 24 Apr 2003 18:37:01 +0900 kameyama @ pccluster.org wrote: > 亀山です. > > In article <20030424182345.C17B.KOHE @ wuchang.cs.hkg.ac.jp> "H.ZHU" wrotes: > > ついでのことですが、亀山さんから教えて頂いた/etc/xinetd.d/rlogin の記述 > > の server 部分を変更する方法は、Debianには/etc/xinetd.d/とrloginの設定す > > るファイルがないので、変更ができませんでした。いろいろ探しましたが、その > > ファイルをあたられませんでした。可能性として、どこにあるのでしょうか。 > > これは inetd に何を使用しているかに依存します. > xinetd ではなく, inetd としたら > /etc/inetd.conf そのファイルがありますが、HPで記述した方法ができないのです。それの代案が ありませんか。 > にあると思います. > > from Kameyama Toyohisa > どうぞ宜しくお願いいたします。 ****H.ZHU****** From kameyama @ pccluster.org Thu Apr 24 18:53:48 2003 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Thu, 24 Apr 2003 18:53:48 +0900 Subject: [SCore-users-jp] root In-Reply-To: Your message of "Thu, 24 Apr 2003 18:47:39 JST." <20030424184527.EFD2.KOHE@wuchang.cs.hkg.ac.jp> Message-ID: <20030424095348.A6E5220056@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <20030424184527.EFD2.KOHE @ wuchang.cs.hkg.ac.jp> "H.ZHU" wrotes: > > これは inetd に何を使用しているかに依存します. > > xinetd ではなく, inetd としたら > > /etc/inetd.conf > > そのファイルがありますが、HPで記述した方法ができないのです。それの代案が > ありませんか。 inetd.conf のほうだと login stream tcp nowait root /usr/sbin/tcpd /usr/sbin/in.rlogind という行を書き換えることになると思います. たぶん. login stream tcp nowait root /usr/bin/strace -o /tmp/xxx /usr/sbin/in.rlogind あたりになると思います. from Kameyama Toyohisa From kohe @ wuchang.cs.hkg.ac.jp Thu Apr 24 19:11:40 2003 From: kohe @ wuchang.cs.hkg.ac.jp (H.ZHU) Date: Thu, 24 Apr 2003 19:11:40 +0900 Subject: [SCore-users-jp] root In-Reply-To: <20030424095348.A6E5220056@neal.il.is.s.u-tokyo.ac.jp> References: <20030424184527.EFD2.KOHE@wuchang.cs.hkg.ac.jp> <20030424095348.A6E5220056@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <20030424190722.EFD8.KOHE@wuchang.cs.hkg.ac.jp> 朱@広島です。 早々教えていただき有難うございます。試した結果は、/usr/bin/straceをイン ストールしていないため、そのxxxというファイルが出来ませんでした。 以上です。また宜しくお願いいたします。 On Thu, 24 Apr 2003 18:53:48 +0900 kameyama @ pccluster.org wrote: > 亀山です. > > In article <20030424184527.EFD2.KOHE @ wuchang.cs.hkg.ac.jp> "H.ZHU" wrotes: > > > これは inetd に何を使用しているかに依存します. > > > xinetd ではなく, inetd としたら > > > /etc/inetd.conf > > > > そのファイルがありますが、HPで記述した方法ができないのです。それの代案が > > ありませんか。 > > inetd.conf のほうだと > login stream tcp nowait root /usr/sbin/tcpd /usr/sbin/in.rlogind > という行を書き換えることになると思います. > たぶん. > login stream tcp nowait root /usr/bin/strace -o /tmp/xxx /usr/sbin/in.rlogind > あたりになると思います. > > from Kameyama Toyohisa > ****H.ZHU****** From jure.jerman @ rzs-hm.si Wed Apr 30 01:12:40 2003 From: jure.jerman @ rzs-hm.si (Jure Jerman) Date: Tue, 29 Apr 2003 18:12:40 +0200 Subject: [SCore-users-jp] [SCore-users] Questions about Score scheduling scheme Message-ID: <3EAEA478.3060706@rzs-hm.si> Dear Score-users, we are running score in a quite specific environment of operational meteorological service. In practice this means that we have some "research jobs" and twice a day a serie of "operational jobs". We do not use any additional queueing system (like PBS, ...). We are trying to solve any queueing problems by using score priorities, any "operational" job goes into the queue 0. However we have noticed several problems: 1. It would be natural if another job with priority 0 would go to a node where there is no job with priority 0 running. This is not the case with Score-5.4.0. For example, if the execution of job0 running with priority 0 depends on the output of job1 starting later with priority 0 and the job1 is scheduled to the node where job0 is already running we have a deadlock problem. 2. If we further play with renicing (sc_console nice command) the command becomes effective only when the process is suspended/resumed. Is this a feature or a bug? 3. For some time we were considering checkpointing/aborting/restarting but the operation fails with the messages: SCORE: Checkpointing ... done. FEP:WARNING Job is aborted by operator. FEP: [29/Apr/2003 16:04:42] Waiting for job restarted ... FEP: [29/Apr/2003 16:04:51] Restarted. SCore-D 5.4.0 connected (jid=66). <0> SCORE WARNING: Physical memory might be exhausted. <0:0> SCORE:WARNING (Program will be started from the beginning) <0:0> SCORE: One node ready. <0:0> SCORE:WARNING Restarting failed: sc_rstrt_open() failed: 16 (Device or resource busy) <0:0> SCORE:WARNING (Program will be started from the beginning) <0:0> SCORE: One node ready. Any clues on that? We would appreciate any hint about the problems. With best regards, Jure Jerman -- -------------------------------------------------------------- Jure Jerman Email: jure.jerman @ rzs-hm.si Environmental Agency of Slovenia Meteorological office Vojkova 1b SI-1001 Ljubljana SLOVENIA -------------------------------------------------------------- _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From hori @ swimmy-soft.com Wed Apr 30 13:05:59 2003 From: hori @ swimmy-soft.com (Atsushi HORI) Date: Wed, 30 Apr 2003 13:05:59 +0900 Subject: [SCore-users-jp] Re: [SCore-users] Questions about Score scheduling scheme In-Reply-To: <3EAEA478.3060706@rzs-hm.si> References: <3EAEA478.3060706@rzs-hm.si> Message-ID: <3134552759.hori0000@swimmy-soft.com> Hi, >1. It would be natural if another job with priority 0 would go to a >node where there >is no job with priority 0 running. This is not the case with >Score-5.4.0. For example, >if the execution of job0 running with priority 0 depends on the >output of job1 starting >later with priority 0 and the job1 is scheduled to the node where >job0 is already running we >have a deadlock problem. If job1 is depending on job0, or job1 should be started after the completion of job0, then you have to declare the dependency, just like the following way % scrun -nodes=XX job0 :: job1 >2. If we further play with renicing (sc_console nice command) the >command becomes >effective only when the process is suspended/resumed. Is this a >feature or a bug? I suppose you are running SCore-D with longer time slice than the default. If this is true, then this is the feature. >3. For some time we were considering >checkpointing/aborting/restarting but the operation fails >with the messages: How did you trigger checkpinting ? ---- Atsushi HORI SCore Developer Swimmy Software, Inc. _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From jure.jerman @ rzs-hm.si Wed Apr 30 16:35:48 2003 From: jure.jerman @ rzs-hm.si (Jure Jerman) Date: Wed, 30 Apr 2003 07:35:48 +0000 (UTC) Subject: [SCore-users-jp] Re: [SCore-users] Questions about Score scheduling scheme In-Reply-To: <3134552759.hori0000@swimmy-soft.com> Message-ID: Hi, thank you for your prompt reply. On Wed, 30 Apr 2003, Atsushi HORI wrote: > Hi, > > >1. It would be natural if another job with priority 0 would go to a > >node where there > >is no job with priority 0 running. This is not the case with > >Score-5.4.0. For example, > >if the execution of job0 running with priority 0 depends on the > >output of job1 starting > >later with priority 0 and the job1 is scheduled to the node where > >job0 is already running we > >have a deadlock problem. > > If job1 is depending on job0, or job1 should be started after the > completion of job0, then you have to declare the dependency, just > like the following way > > % scrun -nodes=XX job0 :: job1 > The problem is, that job0 depends on a serie of jobs preparing the input data for job0. In order to minimize the execution time for job0 we start the job0 when the two first input files are ready and then we trigger next jobs when the input data for them arrives. We use the priority 0 concept because it is the easiest to implement. Perhaps we will have to think about other solution (Score in combination with PBS). > >2. If we further play with renicing (sc_console nice command) the > >command becomes > >effective only when the process is suspended/resumed. Is this a > >feature or a bug? > > I suppose you are running SCore-D with longer time slice than the > default. If this is true, then this is the feature. We are using the default time slice. Could be there anything additionaly wronf with our setup? > > >3. For some time we were considering > >checkpointing/aborting/restarting but the operation fails > >with the messages: > > How did you trigger checkpinting ? I triger checkpointing via sc_console. Then I abort the job (via sc_console again) and then restart (sc_console). I have additional question: This night sc_watch went into the reboot. I do not suspect hardware failure (hopefully) but the problem must be somewhere else. We run quite many single processor jobs doing a lot of IO. Is it possible that when they are trying to do the IO at the same time load goes so hi that sc_watch simply gives up? Is there a way to increase the timeout period? (I remember that there was a post about that in score mailing list, but now I can not find it). Best regards, Jure _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users