From kameyama @ pccluster.org Mon Jun 13 10:45:54 2005 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Mon, 13 Jun 2005 10:45:54 +0900 Subject: [SCore-users-jp] Re: Re: SCoreの利用環境について In-Reply-To: Your message of "Mon, 13 Jun 2005 09:39:45 JST." <002d01c56fb0$6580e340$6ffacca0@indigo.narutou.ac.jp> Message-ID: <20050613014554.E7B8121EF52@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <002d01c56fb0$6580e340$6ffacca0 @ indigo.narutou.ac.jp> "Kazunori Matsuda" wrotes: > SCoreサポート > 亀山様 私だけでサポートや開発を行なっているわけではないので, score-users-jp を使用してください. > また初歩的な質問なのですが,OSについて次のよう > に混在して並列計算することは可能なのでしょうか。 > > サーバホストRedHat 9.0 > 計算ホスト RedHat 7.2 > 計算ホスト 他のLinux(Vine等) > 計算ホスト Solaris > 計算ホスト Windows XP > > RedHatのバージョンの違い,Linuxの種類の違い, > OSの種類の違いの混在という意味です。 現在の, SCore では redhat および Fedora Core をメインにサポートしています, (SuSE もサポートしていますが...) linux のその他の distribution に対応することは比較的容易だとは 思います. linux kernel に手をいれているので, Solaris や Windows で動かす ことはかなり難しいと思います. (UNIX であれば msgserv や scoreboard などいくつかの daemon を 動かすのは可能だとは思いますが... SCore としては CPU や distribution が混在する環境も考慮しています. 同じ source directory, 同じ install directory で異った環境の binary を作成/保持できるようにもしています. たとえば, % scrun -scored=compf,nodes=2x2,i386-redhat7-linux2_4+4x1.ia64-redhat7-linux2_4 で i386 と ia64 の混在した環境で実行することができる仕様にはなっています. (このごろためしてはいませんけど...) しかし, それはそれぞれの binary が存在している場合にかぎります, ia64 で動かすには ia64 の binary を作る必要がありますし, redhat 7,2 で動かすには redhat 7.2 用の binary を作らなければなりません. (現在の SCore は default では static link していますので, 同じ CPU であれば redhat 7.2 と redhat 9 で同じ が問題無く動く可能性が 高いとは思いますが, 保障できませんので, 捌の binary type として あつかっています.) また, scrun を実行する host でもその binary を動かすので, server redhat 9, compute host redhat 7.2 という環境でしたら 厳密には redhat 9 と redhat 7.2 の両方の binary を作成する必要があります. というわけで, 一応は可能ではありますが, 面倒になるだけなので, もし同じ CPU しかなく, とくに理由もないのであれば. server host と compute host は同じ distribution (の同じ version) にすることをおすすめします. from Kameyama Toyohisa From shimada @ kanto-gakuin.ac.jp Mon Jun 13 15:13:36 2005 From: shimada @ kanto-gakuin.ac.jp (Kazuhiro SHIMADA) Date: Mon, 13 Jun 2005 15:13:36 +0900 Subject: [SCore-users-jp] 突然再起動 In-Reply-To: <20050613014554.E7B8121EF52@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <200506130613.j5D6Dtgd023205@mail.kanto-gakuin.ac.jp> 関東学院大学の島田と申します。 すこし重たい計算していると、一部のホストが突然プチッと再起動して しまうことがあるのですが、一般的な原因としてはどのようなことが考 えられますでしょうか。計算時にメモリは1GBは使ってないと思いま す。システムは、 CPU:Xeon3.2GHz(SMP) メモリ:2GB FedoraCore(Linux2.4.21) SCore5.8.1 です。 どうぞよろしくお願い致します。 From tsuchiya @ prologj.com Mon Jun 13 15:50:27 2005 From: tsuchiya @ prologj.com (Naohisa TSUCHIYA) Date: Mon, 13 Jun 2005 15:50:27 +0900 Subject: [SCore-users-jp] 突然再起動 In-Reply-To: <200506130613.j5D6Dtgd023205@mail.kanto-gakuin.ac.jp> Message-ID: 土屋です。 on 05.6.13 3:13 PM, Kazuhiro SHIMADA at shimada @ kanto-gakuin.ac.jp wrote: > すこし重たい計算していると、一部のホストが突然プチッと再起動して > しまうことがあるのですが、一般的な原因としてはどのようなことが考 > えられますでしょうか。 熱暴走の可能性はありませんか。 シャシーのエアフローが悪いとか。 特定のホストであれば、 ・CPUのヒートシンクの取り付けが悪い ・あとは電源が不安定 など。 From black_river @ hiroshima-u.ac.jp Mon Jun 27 17:20:55 2005 From: black_river @ hiroshima-u.ac.jp (黒川 卓) Date: Mon, 27 Jun 2005 17:20:55 +0900 Subject: [SCore-users-jp] SCoreインストール時のエラーについて Message-ID: <000001c57af1$257e7a40$050ba8c0@3hgt6keirob7d4m> This is a multi-part message in MIME format. ------=_NextPart_000_0001_01C57B3C.95689340 Content-Type: text/plain; charset="iso-2022-jp" Content-Transfer-Encoding: quoted-printable SCore=1B$B3+H/4X78pJs%3!<%9$N9u @ n$H?=3D$7$^$9!#=1B(B =1B$B$h$m$7$/$*4j$$$7$^$9!#=1B(B =20 =1B$B8&5f$N2aDx$K$*$$$F!"Bg5,LO$J7W;;$NI,MW$, @ 8$8$?$?$a!"=1B(BPC=1B$B%/%i= %9%?$N=1B(B =1B$B9=3DC[$r9T$C$F$$$^$9!#=1B(BPC Cluster = Consotium=1B$B$d$=3D$NB>=1B(BWeb=1B$B%Z!<%8$J$I$G9=3DC[$N=1B(B =1B$BJ}K!$rD4$Y$J$s$H$+$d$C$F$-$? /*PM/Ethernet */ ethernet type=3Dethernet \ = -config:file=3D/opt/score/etc/pm-ethernet.conf #define PCCethernet msgbserv=3D(fine.info.org:9950) \ cpugen=3DPentium-iv = speed=3D2000 smp=3D1 \ network=3DEthernet,udp \ group=3Dpcc =20 fine.info.org pcc carp.info.org pcc leaf.info.org pcc rain.info.org pcc //=1B$B$=3D$l0J30$NItJ,$O%3%a%s%H%"%&%H$7$F$$$^$9!#=1B(B =20 =1B$B$*pJs%3!<%9!!=1B(B4=1B$B2s @ 8=1B(B =1B$B9u @ n!!Bn=1B(B ************************ ------=_NextPart_000_0001_01C57B3C.95689340 Content-Type: text/html; charset="iso-2022-jp" Content-Transfer-Encoding: quoted-printable

SCore=1B$B3+H/4X78

 

=1B$B!!$O$8$a$^$7$F!#=1B(J

=1B$B;d$O9-EgBg3X650i3XIt!!5;=3DQ!&>pJs%3!<%9= $N9u @ n$H?=3D$7$^$9!#=1B(J

=1B$B$h$m$7$/$*4j$$$7$^$9!#=1B(J

 

=1B$B8&5f$N2aDx$K$*$$$F!"Bg5,LO$J7W;;$NI,MW$, @ 8$8$?$?$a!"=1B(JPC=1B$B%/%i%9%?$N=1B(J

=1B$B9=3DC[$r9T$C$F$$$^$9!#=1B(JPC Cluster Consotium=1B$B$d$=3D$NB>=1B(JWeb=1B$B%Z!<%8$J$I$G9=3DC[$N=1B(J

=1B$BJ}K!$rD4$Y$J$s$H$+$d$C$F$-$?

=1B$BH/@8$7$?$?$a!"%a!<%j%s%0%j%9%H$K;22C$5$;= $F$$$?$@$-$^$7$?!#=1B(J

 

=1B$B$^$::G=3Di$K!"3+H/4D6-$r<($7$F$*$-$^$9!#=1B(J

 

=1B$B%^%7%s$N9=3D @ .$O2<5-$N=1B(Jbee =1B$B0J30$N=1B(J<= /span>4=1B$BBf$O$9$Y$FF1= $89=3D @ .$G$9!#=1B(J

        = ;      =1B$B;HMQ=1B(JOS=1B$B!'=1B(JRedHat=1B$B#9!!!!!!=1B(= J kernel-2.4.20-8=1B$B$r=1B(= Jkernel2.4.21=1B$B$K99?7= !#=1B(J

        = ;            =             &= nbsp;                 = ;      = Score-2.4.21.score.patch=1B$B$OE,MQ:Q$_!#=1B(J

        = ;      SCore=1B$B!'=1B(J5.8.2=1B$B!!$r%$= %s%9%H!<%kCf=1B(J

        = ;      CPU=1B$B!'=1B(JIntel(R) Celeron(R) CPU2.00GHz

        = ;      NIC=1B$B!'=1B(JBUFFALO=1B$B@=3D=1B(J LGY-PCI-GT Gigabit =1B$BBP1~=1B(J

 

(=1B$B!&=1B(J= bee.info.org     IPAdd=1B$B!'=1B(J= 192.168.100.1      = =1B$B%k!<%F%= #%s%0%5!<%P=1B(J

        = ;            =             &= nbsp;           &n= bsp;           &nb= sp;           &nbs= p;  =1B$B7W;;%[%= 9%H$H$7$F$O;HMQ$7$J$$!#=1B(J)

=1B$B!&=1B(J= carp.info.org     IPAdd=1B$B!'=1B(J= 192.168.100.2      = =1B$B7W;;%[%= 9%H=1B(J

=1B$B!&=1B(J= leaf.info.org      IPAdd=1B$B!'=1B(J192.168.100.3      = =1B$B7W;;%[%= 9%H=1B(J

=1B$B!&=1B(J= rain.info.org     IPAdd=1B$B!'=1B(J= 192.168.100.4      = =1B$B7W;;%[%= 9%H=1B(J

=1B$B!&=1B(J= fine.info.org      IPAdd=1B$B!'=1B(J192.168.100.10    NIS=1B$B!&=1B(JNFS=1B$B%5!<%P!#=1B(J

        = ;            =             &= nbsp;           &n= bsp;           &nb= sp;           &nbs= p;  SCore=1B$B%5!<%P%[%9%H=1B(J

 

 

=1B$B!!$5$F!"$=3D$NLdBj$H$$$&$N$O!"%5!<%P%[%9= %H$X$N=1B(JSCore = System=1B$B%$%s%9= %H!<%k;~!"=1B(J

/opt/score/etc/scorehosts-db

/etc/profile.d/score.sh

/etc/profile.d/score.csh

/etc/score.conf

=1B$B$r=1B(JPC Cluster Consotium=1B$B$N$H$*$j$K!"4D6-$K9g$o$;$F:n @ .!&JT=3D8$7!"=1B(J=

/etc/rc.d/init.d/scoreboard start =1B$B$r9T$$= !"=1B(J

/etc/rc.d/init.d/msgbserv start=1B$B!!$H$7= $?$H$3$m!"=1B(J

 

Starting Compute Host Lock Services: SCBD: Retrying to

connect scoreboard = server(fine.info.org:9950)=1B$B!D=1B(J

SCBD: Still = Retrying=1B$B!D=1B(J

SCBD: Still = Retrying=1B$B!D=1B(J

SCBD: Still = Retrying=1B$B!D=1B(J

SCBD: Still = Retrying=1B$B!D=1B(J

SCBD: Unable to connect server (fine.info.org:9950 errno=3D111)

 

=1B$B$H!"$J$j#s#m#g#b%5!<%P$,5/F0$7$F$$$J$$$h= $&$J$N$G$9!#=1B(J

=1B$B$I$&$9$l$P5/F0$9$k$N$G$7$g$&$+!#=1B(Jscoreboard.db=1B$B$O0J2<$N$h$&$K$J$C$F$$$^$9!#=1B(J

 

<scoreboard.db=1B$B$N5-=3DR"-=1B= (J>

/*PM/Ethernet */

ethernet          = ;      type=3Dethernet \

        = ;            =         -config:file=3D/opt/score/etc/pm-ethernet.conf

#define PCCethernet        = ;    msgbserv=3D(fine.info.org:9950) = \

        = ;            =             &= nbsp;         cpugen=3DPentium-iv speed=3D2000 smp=3D1 \

        = ;            =             &= nbsp;         = network=3DEthernet,udp \

        = ;            =             &= nbsp;         = group=3Dpcc

 

fine.info.org pcc

carp.info.org pcc

leaf.info.org pcc

rain.info.org pcc

//=1B$B$=3D$l0J30$NItJ,$O%3%a%s%H%"%&%H$7$F$$$^$9!#=1B(J=1B(J

<scoreboard.db=1B$B$N5-=3DR",=1B= (J>

 

=1B$B$*

=1B$B$465

=1B$B2?J,;j$i$J$$E@$bB?!9$"$k= $H;W$$$^$9$,!"$h$m$7$/$*4j$$$7$^$9!#=1B(J

 

************************

=1B$B9-EgBg3X!!650i3XIt=1B(J<= span lang=3DEN-US>

=1B$B5;=3DQ!&>pJs%3!<%9!!=1B(= J4=1B$B2s @ 8=1B(J

=1B$B9u @ n!!Bn=1B(J

************************

------=_NextPart_000_0001_01C57B3C.95689340-- From kameyama @ pccluster.org Mon Jun 27 17:43:38 2005 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Mon, 27 Jun 2005 17:43:38 +0900 Subject: [SCore-users-jp] SCoreインストール時のエラーについて In-Reply-To: Your message of "Mon, 27 Jun 2005 17:20:55 JST." <000001c57af1$257e7a40$050ba8c0@3hgt6keirob7d4m> Message-ID: <20050627084338.BC9FC21EF52@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <000001c57af1$257e7a40$050ba8c0 @ 3hgt6keirob7d4m> 黒川 卓 wrotes: >  さて、その問題というのは、サーバホストへのSCore Systemインストール時、 > /opt/score/etc/scorehosts-db > /etc/profile.d/score.sh > /etc/profile.d/score.csh > /etc/score.conf > をPC Cluster Consotiumのとおりに、環境に合わせて作成・編集し、 > /etc/rc.d/init.d/scoreboard start を行い、 > /etc/rc.d/init.d/msgbserv start としたところ、 > > Starting Compute Host Lock Services: SCBD: Retrying to > connect scoreboard server(fine.info.org:9950)… > SCBD: Still Retrying… > SCBD: Still Retrying… > SCBD: Still Retrying… > SCBD: Still Retrying… > SCBD: Unable to connect server (fine.info.org:9950 errno=111) > > と、なりsmgbサーバが起動していないようなのです。 scoreboard と接続できていないようです. > どうすれば起動するのでしょうか。scoreboard.dbは以下のようになっていま > す。 > > > /*PM/Ethernet */ > ethernet type=ethernet \ > -config:file=/opt/score/etc/pm-ethernet.conf > #define PCCethernet msgbserv=(fine.info.org:9950) \ > cpugen=Pentium-iv speed=2000 > smp=1 \ > network=Ethernet,udp \ > group=pcc > > fine.info.org pcc > carp.info.org pcc > leaf.info.org pcc > rain.info.org pcc この既述ですが, 各 host の既述に network などの記述がありません. 多分, 以下のまちがいだと推測します. fine.info.org PCCethernet carp.info.org PCCethernet leaf.info.org PCCethernet rain.info.org PCCethernet from Kameyama Toyohisa From nick @ streamline-computing.com Tue Jun 28 02:54:05 2005 From: nick @ streamline-computing.com (Nick Birkett) Date: Mon, 27 Jun 2005 18:54:05 +0100 Subject: [SCore-users-jp] [SCore-users] pm-ethernet1 Message-ID: <42C03D3D.3030009@streamline-computing.com> Has someone seen this problem before ? pm ethernet unit 1 does not work. version SCORE 5.8.2. OS - SuSE 9.3 x86_64 Kernel : 2.6.11.4-21.7-1SCORE-smp (latest SuSE 9.3 + score kernel patch). PM_DEBUG=3 Error log for rpmtest: nimbus:/opt/score/sbin # ./rpmtest comp00 ethernet1 -reply ethernet_open_device(): -config /var/scored/scoreboard/nimbus0000V200AU1O pmEthernetOpenDevice: Library version $Id: pm_ethernet.c,v 1.71 2004/11/19 05:20:40 kameyama Exp $ pmEthernetReadConfig(0x626790, unit, 1): set unit number "1" (MAX: 4). pmEthernetReadConfig(0x626790, checksum, 1): set checksum "1" on. pmEthernetReadConfig(0x626790, maxnsend, 16): set maxnsend "16". pmEthernetReadConfig(0x626790, backoff, 1024): set backoff "1024" usec. pmEthernetOpenDevice("/var/scored/scoreboard/nimbus0000V200AU1O", 0x7fffffffe0b0): pmEthernetMapEthernet(1, 0x7fffffffe058): 0 pmEthernetMapEthernet(1, 0x7fffffffe058): open("/dev/etherpm/32", 2, 0): 12 pmEthernetOpenDevice("/var/scored/scoreboard/nimbus0000V200AU1O", 0x7fffffffe0b0): pmEthernetMapEthernet(1, 0x7fffffffe058): 12 pmOpenDevice: Cannot allocate memory(12) Seems to work fine on ethernet0. The config files look fine for eth0 and eth1, Best wishes, Nick _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users