[SCore-users-jp] PM ethernet/ethernet device already opened

Shinji Sumimoto s-sumi @ flab.fujitsu.co.jp
2002年 11月 28日 (木) 18:28:42 JST


富士通研の住元です。

From: "Sugano, Mitsukuni" <suga @ sse.co.jp>
Subject: Re: [SCore-users-jp] PM ethernet/ethernet device already opened
Date: Thu, 28 Nov 2002 18:11:32 +0900
Message-ID: <3DE5DDC4.7FCB792B @ sse.co.jp>

suga> 住元様:
suga> 
suga> 住商エレクトロニクスの菅野です。
suga> いつもお世話になっております。
suga> 
suga> Shinji Sumimoto wrote:
suga> > 
suga> > 富士通研の住元です。
suga> > 
suga> > From: kameyama @ pccluster.org
suga> > Subject: Re: [SCore-users-jp] PM ethernet/ethernet device already opened
suga> > Date: Thu, 28 Nov 2002 16:02:32 +0900
suga> > Message-ID: <20021128070232.8E22A20040 @ neal.il.is.s.u-tokyo.ac.jp>
suga> > 
suga> > kameyama> 亀山です.
suga> > kameyama>
suga> > kameyama> In article <3DE5B822.4C011686 @ sse.co.jp> "Sugano, Mitsukuni" <suga @ sse.co.jp> wrotes:
suga> > kameyama> > $ cd /opt/score/deploy
suga> > kameyama> > $ scout -g pcc
suga> > kameyama> > SCOUT: Spawn done.
suga> > kameyama> > SCOUT: session started
suga> > kameyama> > $ export PM_DEBUG=1
suga> > kameyama> > $ ./scstest -network ethernet
suga> > kameyama> >
suga> > kameyama> > SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16)
suga> > kameyama> > pmEthernetMapEthernet(1, 0xbfffef78): open("/dev/etherpm/32", 2, 0): 16
suga> > kameyama>
suga> > kameyama> PM/Ethernet の device (の unit 1) の open() が EBUSY になっているようです.
suga> > kameyama> やっぱり, 他の process が使用しているような感じですけど...
suga> > kameyama>
suga> > kameyama>                        from Kameyama Toyohisa
suga> > 
suga> > 整理してよろしいでしょうか?
suga> > 
suga> > 1) rpmtestは正常に動作する。
suga> > 2) scstestのみ失敗する。
suga> > 
suga> > でよろしいでしょうか?
suga> 
suga> はい。
suga> 
suga> > 
suga> > 1)が動いているので、pm-ethernet.conf は正しい。
suga> > と推定されます。
suga> > 
suga> > もし、このとおりであれば、scorehosts.dbの 特定のノードのネットワークエ
suga> > ントリがおかしいのではないかと思います。記述はどうなっていますでしょう?
suga> > ethernetが2つ書かれていたりしないでしょうか?
suga> 
suga> 確認してみます。
suga> 管理ノードの/opt/score/etc/scorehosts.dbですよね?

はい、でも同じファイルで、以前は動いていたわけですよね?
ここが結構不思議なのですが、、

誰かが変更していなければ問題無いはずなのですが、、

suga> > ちなみに、rcstestは動作しますでしょうか?
suga> 
suga> 不勉強で、すみません。具体的な手順をいただけますでしょうか?

http://www.pccluster.org/score/dist/score/html/ja/man/man8/rcstest.html

% rcstest node01 ethernet -v

で実行してください。

細かいオプションはcstestを参照してください。

http://www.pccluster.org/score/dist/score/html/ja/man/man8/cstest.html

suga> > 
suga> > あと、/dev/etherpm/下にファイルはありますね?
suga> 
suga> 問題のある計算ノードのみ確認すればよろしいでしょうか?
suga> できれば、どのようなファイルがあるのが正解かもご教示
suga> いただければ幸いです。

特にopenに失敗している /dev/etherpm/32 があるかどうか、permissionは
他のノードと同じかどうかを確認してください。

以上、よろしくお願いします。

suga> 以上、よろしくお願いいたします。
suga> 
suga> 
suga> 
suga> −−−−−−念のため、以前MLに投げた内容を添付します。−−−−−
suga> 
suga> SCore5.0.1のクラスタシステムのうち計算ノードの1台が
suga> HD故障で交換したため、正常なノードからddでHD丸ごと
suga> システムをコピーし、IPアドレスとhostnameにかかわる
suga> 部分のみを手動で編集し、復旧させました。
suga> 
suga> ところが、そのシステムを含めてpm-etherの1対1テスト
suga> は、正常に動作するもののトータルテストに失敗します。
suga> 以下は、そのテストの結果ですが、丸ごと他のノードの
suga> システムをコピーした場合、何か他に変更すべきファイル
suga> があるのでしょうか?
suga> また、特別変更する必要のあるファイルがない場合、この
suga> 現象の原因がどこにあるか教えていただければ幸いです。
suga> 
suga> 以上、よろしくお願いいたします。
suga> 
suga> −−−slave23がHD交換をしたシステムです−−−
suga> 
suga> [root @ master sbin]# ./rpmtest slave23 ethernet -reply
suga> In another window;
suga> [root @ master sbin]# ./rpmtest slave01 ethernet -dest 22 -ping
suga> 8       9.44502e-05
suga> [root @ master sbin]# ./rpmtest slave32 ethernet -dest 22 -ping
suga> 8       9.44093e-05
suga> 
suga> (ちなみに、HOST0=slave01,...,HOST22=slave23,...です。)
suga> 
suga> [root @ master sbin]# cd /opt/score/deploy
suga> [root @ master deploy]# scout -g pcc
suga> SCOUT: Spawning done.  
suga> SCOUT: session started.
suga> [root @ master deploy]# ./scstest -network ethernet
suga> SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16)
suga> PM ethernet/ethernet device already opened.
suga> 
suga> 上記エラーが表示されます。
suga> そこで、slave23をscorehosts.defectsに追加
suga> 
suga> [root @ master etc]# more scorehosts.defects
suga> slave23.pccluster.org
suga> 
suga> [root @ master init.d]# ./msgbserv stop
suga> [root @ master init.d]# ./scoreboard stop
suga> [root @ master init.d]# ./scoreboard start
suga> [root @ master init.d]# ./msgbserv start
suga> 
suga> [root @ master deploy]# cd /opt/score/deploy
suga> [root @ master deploy]# scout -g pcc
suga> SCOUT: Spawning done.  
suga> SCOUT: session started.
suga> [root @ master deploy]# ./scstest -network ethernet
suga> SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16)
suga> 50 K packets.
suga> 100 K packets.
suga> 150 K packets.
suga> 200 K packets.
suga> 250 K packets.
suga> 300 K packets.
suga> 350 K packets.
suga> 400 K packets.
suga> 
suga> slave23を除くと正常動作します。
suga> 
suga> −−− 以上、テスト結果です−−−
suga> _______________________________________________
suga> SCore-users-jp mailing list
suga> SCore-users-jp @ pccluster.org
suga> http://www.pccluster.org/mailman/listinfo/score-users-jp
suga> 
suga> 
------
Shinji Sumimoto, Fujitsu Labs



SCore-users-jp メーリングリストの案内