[SCore-users-jp] PM ethernet/ethernet device already opened

Shinji Sumimoto s-sumi @ flab.fujitsu.co.jp
2002年 12月 5日 (木) 12:02:11 JST


富士通研の住元です。

ノードの設定のエントリから、eth1と不要なエントリ(ethold)を外してください。
これだと問題があります。

でも、slave23を除くと動くと言うのは、変です。エラーではunit 番号 1の
ネットワークが問題のようです。

/opt/score/etc/pm-ethernet-1.conf
/opt/score/etc/pm-ethernet-0.conf
/opt/score/etc/pm-ethernet.conf

と、/etc/init.d/pm_ethernet

での unit番号の指定はどうなっていますでしょうか?

===================================================================
/* PM/Ethernet */
ethernet  type=ethernet \
	-config:file=/opt/score/etc/pm-ethernet-1.conf \
	-trunk0:file=/opt/score/etc/pm-ethernet-0.conf

eth0		type=ethernet \
		-config:file=/opt/score/etc/pm-ethernet-0.conf

eth1		type=ethernet \
		-config:file=/opt/score/etc/pm-ethernet-1.conf

ethold	type=ethernet \
		-config:file=/opt/score/etc/pm-ethernet.conf

slave01.pccluster.org	HOST_0 network=ethernet,eth0,eth1,ethold,shmem0,shmem1 group=_scoreall_,pcc,pcch0,pccq0 smp=2 MSGBSERV
slave02.pccluster.org	HOST_1 network=ethernet,eth0,eth1,ethold,shmem0,shmem1 group=_scoreall_,pcc,pcch0,pccq0 smp=2 MSGBSERV
slave03.pccluster.org	HOST_2 network=ethernet,eth0,eth1,ethold,shmem0,shmem1 group=_scoreall_,pcc,pcch0,pccq0 smp=2 MSGBSERV
slave04.pccluster.org	HOST_3 network=ethernet,eth0,eth1,ethold,shmem0,shmem1 group=_scoreall_,pcc,pcch0,pccq0 smp=2 MSGBSERV
slave05.pccluster.org	HOST_4 network=ethernet,eth0,eth1,ethold,shmem0,shmem1 group=_scoreall_,pcc,pcch0,pccq0 smp=2 MSGBSERV
slave06.pccluster.org	HOST_5 network=ethernet,eth0,eth1,ethold,shmem0,shmem1 group=_scoreall_,pcc,pcch0,pccq0 smp=2 MSGBSERV
slave07.pccluster.org	HOST_6 network=ethernet,eth0,eth1,ethold,shmem0,shmem1 group=_scoreall_,pcc,pcch0,pccq0 smp=2 MSGBSERV
slave08.pccluster.org	HOST_7 network=ethernet,eth0,eth1,ethold,shmem0,shmem1 group=_scoreall_,pcc,pcch0,pccq0 smp=2 MSGBSERV
slave09.pccluster.org	HOST_8 network=ethernet,eth0,eth1,ethold,shmem0,shmem1 group=_scoreall_,pcc,pcch0,pccq1 smp=2 MSGBSERV
===================================================================


From: "Sugano, Mitsukuni" <suga @ sse.co.jp>
Subject: Re: [SCore-users-jp] PM ethernet/ethernet device already opened
Date: Thu, 05 Dec 2002 11:47:59 +0900
Message-ID: <3DEEBE5F.FA3CFA92 @ sse.co.jp>

suga> 住元様:
suga> 
suga> 住商エレクトロニクスの菅野です。
suga> いつもお世話になっております。
suga> 
suga> 先日来、質問させていただいております、PM-ETHERの不具合に
suga> 関して、ご教示いただいたrcstest等のテストを行いました。
suga> 以前に送らさせていただいた内容も整理し、合わせて送付させ
suga> ていただきます。
suga> 添付ファイルをご送付することをお許しください。
suga> 
suga> これらの結果から、何かおわかりになることがございましたら、
suga> ご教示いただけると幸いです。
suga> 
suga> −−−
suga> slave01-slave32のシステムにおいて、
suga> 
suga> slave23のHD障害のため交換。
suga> 正常動作しているslave24の内容をslave23にddで丸ごとコピー。
suga> hostnameおよびipアドレスをslave23のものに変更。
suga> 
suga> 1.初期調査
suga> 
suga> 1)slave23と他の計算ノード全ての間で、pm-etherの1対1テスト Status:OK
suga> 
suga> [root @ master sbin]# ./rpmtest slave23 ethernet -reply
suga> In another window;
suga> [root @ master sbin]# ./rpmtest slave01 ethernet -dest 22 -ping
suga> 8       9.44502e-05
suga> ...
suga> 
suga> [root @ master sbin]# ./rpmtest slave32 ethernet -dest 22 -ping
suga> 8       9.44093e-05
suga> 
suga> (ちなみに、HOST0=slave01,...,HOST22=slave23,...です。)
suga> 
suga> 2)pm-etherの総合テスト Status:NG
suga> 
suga> [root @ master sbin]# cd /opt/score/deploy
suga> [root @ master deploy]# scout -g pcc
suga> SCOUT: Spawning done.
suga> SCOUT: session started.
suga> [root @ master deploy]# ./scstest -network ethernet
suga> SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16)
suga> PM ethernet/ethernet device already opened.
suga> 
suga> ・slave23の除くと総合テストOK
suga> 
suga> slave23をscorehosts.defectsに追加
suga> 
suga> [root @ master etc]# more scorehosts.defects
suga> slave23.pccluster.org
suga> 
suga> [root @ master init.d]# ./msgbserv stop
suga> [root @ master init.d]# ./scoreboard stop
suga> [root @ master init.d]# ./scoreboard start
suga> [root @ master init.d]# ./msgbserv start
suga> 
suga> [root @ master deploy]# cd /opt/score/deploy
suga> [root @ master deploy]# scout -g pcc
suga> SCOUT: Spawning done.
suga> SCOUT: session started.
suga> [root @ master deploy]# ./scstest -network ethernet
suga> SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16)
suga> 50 K packets.
suga> 100 K packets.
suga> 150 K packets.
suga> 200 K packets.
suga> 250 K packets.
suga> 300 K packets.
suga> 350 K packets.
suga> 400 K packets.
suga> 
suga> 2.その後の調査
suga> 
suga> 1)ddコピー後の変更事項確認
suga> pcc殿にddで丸ごとコピーした場合、IPとhostnameを変更する
suga> だけで良く、SCore自体に変更すべき事項は無いことを確認。
suga> 
suga> 2)debugモードでのpm-etherテスト
suga> pm-ether総合テストを、DBGモードで行った結果
suga> 
suga> $ cd /opt/score/deploy
suga> $ scout -g pcc
suga> SCOUT: Spawn done.
suga> SCOUT: session started
suga> $ export PM_DEBUG=1
suga> $ ./scstest -network ethernet
suga> 
suga> SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16)
suga> pmEthernetMapEthernet(1, 0xbfffef78): open("/dev/etherpm/32", 2, 0): 16
suga> pmEthernetOpenDevice("/var/scored/scoreboard/master.0000B5002rfL",
suga> 0xbffff234):
suga> pmEthernetMapEthernet(1, 0xbfffef78): 16
suga> PM ethernet/ethernet device already opened.
suga> 
suga> 3)scorehosts.db、pm-ethernet.conf
suga> master:/opt/score/etc/scorehosts.db
suga> master:/opt/score/etc/pm-ethernet.conf
suga> 添付ファイル参照
suga> 
suga> 4)etherpm
suga> slave02% ls -l /dev/etherpm
suga> slave23% ls -l /dev/etherpm
suga> 結果は、etherpm参照
suga> 
suga> 5)rcstest
suga> [root @ master root]# rcstest slave01 ethernet -v
suga> starting master 0 : pe=32
suga> starting slave:  1 4 3 5 13 7 6 11 12 9 16 8 2 18 14 10 22 19 15 20 30
suga> 23 21
suga> 27
suga> 24 29 31 17 25 26 28.
suga> testing*..*.**.*.*.**..*.*.*.*.*.*.*.*.*.*.*.*.*.*.*.*.*.*.*.*.**.*.*.*.*.*.
suga> *.*.
suga> *.*.*.*.*.**..**.*..*.*.*.*.*.*.*.*.*.*.*.*..*.*.*.**..*.**.*.*.*.*.*.*.*.*.
suga> **.*
suga> 上記が続くため、ctrl/Cで終了
suga> 
suga> 
suga> −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
suga> 
suga> また、もう一点質問させていただきたいのですが、
suga> 
suga> rootでは実行可能なプログラムを一般ユーザのアカウントで
suga> scrunを行うと以下のように実行できません。
suga> 
suga> foo% scrun -nodes=31x2 ./Myprog
suga> SCore-D 5.0.0 connected.
suga> <19> SCore-D:ERROR Unable to create SCore-D directory
suga> (/var/scored/singleuser/1070).
suga> となります。
suga> 
suga> また、NISは問題なく動いており、
suga> rsh slave01 ls -l /home/foo/Myprog
suga> ...
suga> rsh slave32 ls -l /home/foo/Myprog
suga> も、問題なく動作しています。
suga> 
suga> 何が原因かご教示いただければ幸いです。
suga> 
suga> 
suga> 以上、よろしくお願いいたします。
suga> 
suga> Shinji Sumimoto wrote:
suga> > 
suga> > From: "Sugano, Mitsukuni" <suga @ sse.co.jp>
suga> > Subject: Re: [SCore-users-jp] PM ethernet/ethernet device already opened
suga> > Date: Thu, 28 Nov 2002 18:48:56 +0900
suga> > Message-ID: <3DE5E688.A3D723D @ sse.co.jp>
suga> > 
suga> > suga> 住元様:
suga> > suga>
suga> > suga> 住商エレクトロニクスの菅野です。
suga> > suga> ご回答ありがとうございます。
suga> > suga> 申し訳ございませんが、少し確認させてください。
suga> > suga>
suga> > suga> > % rcstest node01 ethernet -v
suga> > suga> >
suga> > suga> > で実行してください。
suga> > suga>
suga> > suga> ここで、node01のところは任意の計算ノードを指定すれば、よろしい
suga> > suga> でしょうか?それとも不具合のあるノードを指定すべきでしょうか、
suga> > suga> もしくは管理ノードを指定するのでしょうか?
suga> > 
suga> > 任意の計算ノードです。
suga> > 
suga> > suga> > suga> > あと、/dev/etherpm/下にファイルはありますね?
suga> > suga> > suga>
suga> > suga> > suga> 問題のある計算ノードのみ確認すればよろしいでしょうか?
suga> > suga> > suga> できれば、どのようなファイルがあるのが正解かもご教示
suga> > suga> > suga> いただければ幸いです。
suga> > suga> >
suga> > suga> > 特にopenに失敗している /dev/etherpm/32 があるかどうか、permissionは
suga> > suga> > 他のノードと同じかどうかを確認してください。
suga> > suga>
suga> > suga> 32の意味は、全計算ノード数でしょうか?また、ファイルの中身は何でしょう
suga> > suga> か?
suga> > 
suga> > 32は単なるファイル名で、デバイスファイルです。
suga> > 
suga> > suga> おそらく、正常なノードslave24からHD交換ノードslave23に丸ごとddしている
suga> > suga> ので、同じだとは思うのですが、確認してみます。
suga> > suga>
suga> > suga> 以上、よろしくお願いいたします。
suga> > suga> _______________________________________________
suga> > suga> SCore-users-jp mailing list
suga> > suga> SCore-users-jp @ pccluster.org
suga> > suga> http://www.pccluster.org/mailman/listinfo/score-users-jp
suga> > suga>
suga> > ------
suga> > Shinji Sumimoto, Fujitsu Labs
suga> > _______________________________________________
suga> > SCore-users-jp mailing list
suga> > SCore-users-jp @ pccluster.org
suga> > http://www.pccluster.org/mailman/listinfo/score-users-jp
------
Shinji Sumimoto, Fujitsu Labs



SCore-users-jp メーリングリストの案内