[SCore-users-jp] PM ethernet/ethernet device already opened
Shinji Sumimoto
s-sumi @ flab.fujitsu.co.jp
2002年 11月 28日 (木) 18:28:42 JST
富士通研の住元です。
From: "Sugano, Mitsukuni" <suga @ sse.co.jp>
Subject: Re: [SCore-users-jp] PM ethernet/ethernet device already opened
Date: Thu, 28 Nov 2002 18:11:32 +0900
Message-ID: <3DE5DDC4.7FCB792B @ sse.co.jp>
suga> 住元様:
suga>
suga> 住商エレクトロニクスの菅野です。
suga> いつもお世話になっております。
suga>
suga> Shinji Sumimoto wrote:
suga> >
suga> > 富士通研の住元です。
suga> >
suga> > From: kameyama @ pccluster.org
suga> > Subject: Re: [SCore-users-jp] PM ethernet/ethernet device already opened
suga> > Date: Thu, 28 Nov 2002 16:02:32 +0900
suga> > Message-ID: <20021128070232.8E22A20040 @ neal.il.is.s.u-tokyo.ac.jp>
suga> >
suga> > kameyama> 亀山です.
suga> > kameyama>
suga> > kameyama> In article <3DE5B822.4C011686 @ sse.co.jp> "Sugano, Mitsukuni" <suga @ sse.co.jp> wrotes:
suga> > kameyama> > $ cd /opt/score/deploy
suga> > kameyama> > $ scout -g pcc
suga> > kameyama> > SCOUT: Spawn done.
suga> > kameyama> > SCOUT: session started
suga> > kameyama> > $ export PM_DEBUG=1
suga> > kameyama> > $ ./scstest -network ethernet
suga> > kameyama> >
suga> > kameyama> > SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16)
suga> > kameyama> > pmEthernetMapEthernet(1, 0xbfffef78): open("/dev/etherpm/32", 2, 0): 16
suga> > kameyama>
suga> > kameyama> PM/Ethernet の device (の unit 1) の open() が EBUSY になっているようです.
suga> > kameyama> やっぱり, 他の process が使用しているような感じですけど...
suga> > kameyama>
suga> > kameyama> from Kameyama Toyohisa
suga> >
suga> > 整理してよろしいでしょうか?
suga> >
suga> > 1) rpmtestは正常に動作する。
suga> > 2) scstestのみ失敗する。
suga> >
suga> > でよろしいでしょうか?
suga>
suga> はい。
suga>
suga> >
suga> > 1)が動いているので、pm-ethernet.conf は正しい。
suga> > と推定されます。
suga> >
suga> > もし、このとおりであれば、scorehosts.dbの 特定のノードのネットワークエ
suga> > ントリがおかしいのではないかと思います。記述はどうなっていますでしょう?
suga> > ethernetが2つ書かれていたりしないでしょうか?
suga>
suga> 確認してみます。
suga> 管理ノードの/opt/score/etc/scorehosts.dbですよね?
はい、でも同じファイルで、以前は動いていたわけですよね?
ここが結構不思議なのですが、、
誰かが変更していなければ問題無いはずなのですが、、
suga> > ちなみに、rcstestは動作しますでしょうか?
suga>
suga> 不勉強で、すみません。具体的な手順をいただけますでしょうか?
http://www.pccluster.org/score/dist/score/html/ja/man/man8/rcstest.html
% rcstest node01 ethernet -v
で実行してください。
細かいオプションはcstestを参照してください。
http://www.pccluster.org/score/dist/score/html/ja/man/man8/cstest.html
suga> >
suga> > あと、/dev/etherpm/下にファイルはありますね?
suga>
suga> 問題のある計算ノードのみ確認すればよろしいでしょうか?
suga> できれば、どのようなファイルがあるのが正解かもご教示
suga> いただければ幸いです。
特にopenに失敗している /dev/etherpm/32 があるかどうか、permissionは
他のノードと同じかどうかを確認してください。
以上、よろしくお願いします。
suga> 以上、よろしくお願いいたします。
suga>
suga>
suga>
suga> −−−−−−念のため、以前MLに投げた内容を添付します。−−−−−
suga>
suga> SCore5.0.1のクラスタシステムのうち計算ノードの1台が
suga> HD故障で交換したため、正常なノードからddでHD丸ごと
suga> システムをコピーし、IPアドレスとhostnameにかかわる
suga> 部分のみを手動で編集し、復旧させました。
suga>
suga> ところが、そのシステムを含めてpm-etherの1対1テスト
suga> は、正常に動作するもののトータルテストに失敗します。
suga> 以下は、そのテストの結果ですが、丸ごと他のノードの
suga> システムをコピーした場合、何か他に変更すべきファイル
suga> があるのでしょうか?
suga> また、特別変更する必要のあるファイルがない場合、この
suga> 現象の原因がどこにあるか教えていただければ幸いです。
suga>
suga> 以上、よろしくお願いいたします。
suga>
suga> −−−slave23がHD交換をしたシステムです−−−
suga>
suga> [root @ master sbin]# ./rpmtest slave23 ethernet -reply
suga> In another window;
suga> [root @ master sbin]# ./rpmtest slave01 ethernet -dest 22 -ping
suga> 8 9.44502e-05
suga> [root @ master sbin]# ./rpmtest slave32 ethernet -dest 22 -ping
suga> 8 9.44093e-05
suga>
suga> (ちなみに、HOST0=slave01,...,HOST22=slave23,...です。)
suga>
suga> [root @ master sbin]# cd /opt/score/deploy
suga> [root @ master deploy]# scout -g pcc
suga> SCOUT: Spawning done.
suga> SCOUT: session started.
suga> [root @ master deploy]# ./scstest -network ethernet
suga> SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16)
suga> PM ethernet/ethernet device already opened.
suga>
suga> 上記エラーが表示されます。
suga> そこで、slave23をscorehosts.defectsに追加
suga>
suga> [root @ master etc]# more scorehosts.defects
suga> slave23.pccluster.org
suga>
suga> [root @ master init.d]# ./msgbserv stop
suga> [root @ master init.d]# ./scoreboard stop
suga> [root @ master init.d]# ./scoreboard start
suga> [root @ master init.d]# ./msgbserv start
suga>
suga> [root @ master deploy]# cd /opt/score/deploy
suga> [root @ master deploy]# scout -g pcc
suga> SCOUT: Spawning done.
suga> SCOUT: session started.
suga> [root @ master deploy]# ./scstest -network ethernet
suga> SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16)
suga> 50 K packets.
suga> 100 K packets.
suga> 150 K packets.
suga> 200 K packets.
suga> 250 K packets.
suga> 300 K packets.
suga> 350 K packets.
suga> 400 K packets.
suga>
suga> slave23を除くと正常動作します。
suga>
suga> −−− 以上、テスト結果です−−−
suga> _______________________________________________
suga> SCore-users-jp mailing list
suga> SCore-users-jp @ pccluster.org
suga> http://www.pccluster.org/mailman/listinfo/score-users-jp
suga>
suga>
------
Shinji Sumimoto, Fujitsu Labs
SCore-users-jp メーリングリストの案内