[SCore-users-jp] Re: Is it a MPICH-SCore problem?
Shinji Sumimoto
s-sumi @ flab.fujitsu.co.jp
2005年 12月 8日 (木) 16:58:05 JST
稲垣様
住元です。
使っているカーネルは、SCore 5.8.3附属の2.6.11でしょうか?その際に
PM/EthernetドライバのInterrupt Reapingの設定はONでしょうか?
ONの場合はOFFにして試して頂けないでしょうか?
あと、正常に動いた際のpmtest -ping (-reply) の結果はどうでしょう?
inagaki> Dev error : 2
このエラーについては、送信が失敗した場合にカウントされます。失敗理由は
送信キューが一杯、ドライバのエラーなどが考えられます。しかし、エラーが
でても再送されるので通常問題はありません。
デバイスのエラーの場合はifconfig の結果で調べるともう少し詳しい状況が
わかります。
From: Ryoichi INAGAKI <inagaki @ ueda.info.waseda.ac.jp>
Subject: Re: [SCore-users-jp] Re: Is it a MPICH-SCore problem?
Date: Thu, 08 Dec 2005 16:35:18 +0900 (JST)
Message-ID: <20051208.163518.226780276.inagaki @ ueda.info.waseda.ac.jp>
inagaki> 住元様
inagaki>
inagaki> 早稲田大学の稲垣です。
inagaki> ご指摘いただいた点について調べてみました。
inagaki>
inagaki> On Thu, 08 Dec 2005 14:58:01 +0900 (JST),
inagaki> Shinji Sumimoto <s-sumi @ flab.fujitsu.co.jp> wrote:
inagaki>
inagaki> > プログラムを stat=all オプションを使った時に得られるCPU結果と実際の
inagaki> > elapse時間とは差がありますでしょうか?
inagaki> >
inagaki> > 例
inagaki> > $ scrun -nodes=4x1,stat=all ./a.out
inagaki>
inagaki> これについては特に差が発生しませんでした。
inagaki>
inagaki> [inagaki @ salers matrix]$ scrun -nodes=1x1,stat=all ./a.out
inagaki> SCore-D 5.8.3 connected.
inagaki> <0:0> SCORE: One node ready.
inagaki> 2.490 sec.
inagaki>
inagaki> -=-=-=-= SCore-D Statistics =-=-=-=-
inagaki> Nodes:1, User:2.657[S], Elapsed:2.860[S], CSW:1, CKPT:0
inagaki> 1[hosts]x1[procs], salers00.clusters.ueda.info.waseda.ac.jp...salers00.clusters.ueda.info.waseda.ac.jp
inagaki>
inagaki> #Node UsrTime SysTime Mem Disk #SC IO Exit
inagaki> 0 2.544[S] 63.0[m] 14.30[MB] 1[MB] 5 0[B] 0
inagaki> Min 2.544[S] 63.0[m] 14.30[MB] 1[MB] 5 0[B] ---
inagaki> Max 2.544[S] 63.0[m] 14.30[MB] 1[MB] 5 0[B] ---
inagaki> Ave 2.544[S] 63.0[m] 14.30[MB] 1[MB] 5 0[B] ---
inagaki>
inagaki> [inagaki @ salers matrix]$ scrun -nodes=2x1,stat=all ./a.out
inagaki> SCore-D 5.8.3 connected.
inagaki> <0:0> SCORE: 2 nodes (2x1) ready.
inagaki> 7.210 sec.
inagaki> 7.220 sec.
inagaki>
inagaki> -=-=-=-= SCore-D Statistics =-=-=-=-
inagaki> Nodes:2, User:7.448[S], Elapsed:7.651[S], CSW:1, CKPT:0
inagaki> 2[hosts]x1[procs], salers00.clusters.ueda.info.waseda.ac.jp...salers01.clusters.ueda.info.waseda.ac.jp
inagaki> [0:0]
inagaki> Network:
inagaki> ethernet/ethernet:1[1];
inagaki> [1:0] ethernet/ethernet:1[1];
inagaki>
inagaki> #Node UsrTime SysTime Mem Disk #SC IO Exit
inagaki> 0 7.275[S] 80.0[m] 15.07[MB] 1[MB] 5 0[B] 0
inagaki> 1 7.280[S] 92.0[m] 14.80[MB] 1[MB] 5 0[B] 0
inagaki> Min 7.275[S] 80.0[m] 14.80[MB] 1[MB] 5 0[B] ---
inagaki> Max 7.280[S] 92.0[m] 15.07[MB] 1[MB] 5 0[B] ---
inagaki> Ave 7.277[S] 86.0[m] 14.93[MB] 1[MB] 5 0[B] ---
inagaki>
inagaki>
inagaki>
inagaki> > また 以下のドキュメントにあるPM のテスト結果はどうでしょう?
inagaki> >
inagaki> > http://www.pccluster.org/score/dist/score/html/ja/installation/pm-test.html
inagaki>
inagaki> PM/Ethernet, PM/Shmem についてテストを行ったところ、
inagaki> PM/Ethernet の Point-to-Point テストの挙動に不審な部分がありました。
inagaki>
inagaki> rpmtest が普通に成功する場合と応答が返ってこない場合があり、その割合は
inagaki> 後者の方が多いです。計算ノードの /proc/pm/ethernet/0/info を見てみたと
inagaki> ころ
inagaki>
inagaki> Dev error : 2
inagaki>
inagaki> という値が設定されていました。他の計算ノードでも 0 以上の値が設定され
inagaki> ていたので、何かしら PM ドライバ周辺でエラーが発生しているということを
inagaki> 意味しているのでしょうか・・・?
inagaki>
inagaki> 使用しているネットワークデバイスは Broadcom BCM5721 で Fedora Core 4
inagaki> では tg3 ドライバを使用しています。
inagaki>
inagaki> PM/Ethernet の scstest, PM/Shmem のすべてのテストについてはエラーなど
inagaki> は発生しませんでした。
inagaki>
inagaki> _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/
inagaki> 早稲田大学大学院 理工学研究科
inagaki> 情報・ネットワーク専攻 上田研究室 D1
inagaki>
inagaki> 稲垣 良一 <inagaki @ ueda.info.waseda.ac.jp>
inagaki> _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/
------
Shinji Sumimoto, Fujitsu Labs
SCore-users-jp メーリングリストの案内