[SCore-users-jp] Re: Is it a MPICH-SCore problem?

Shinji Sumimoto s-sumi @ flab.fujitsu.co.jp
2005年 12月 8日 (木) 16:58:05 JST


稲垣様

住元です。

使っているカーネルは、SCore 5.8.3附属の2.6.11でしょうか?その際に 
PM/EthernetドライバのInterrupt Reapingの設定はONでしょうか?
ONの場合はOFFにして試して頂けないでしょうか?

あと、正常に動いた際のpmtest -ping (-reply) の結果はどうでしょう?

inagaki> Dev error       :       2

このエラーについては、送信が失敗した場合にカウントされます。失敗理由は
送信キューが一杯、ドライバのエラーなどが考えられます。しかし、エラーが
でても再送されるので通常問題はありません。

デバイスのエラーの場合はifconfig の結果で調べるともう少し詳しい状況が
わかります。


From: Ryoichi INAGAKI <inagaki @ ueda.info.waseda.ac.jp>
Subject: Re: [SCore-users-jp] Re: Is it a MPICH-SCore problem?
Date: Thu, 08 Dec 2005 16:35:18 +0900 (JST)
Message-ID: <20051208.163518.226780276.inagaki @ ueda.info.waseda.ac.jp>

inagaki> 住元様
inagaki> 
inagaki> 早稲田大学の稲垣です。
inagaki> ご指摘いただいた点について調べてみました。
inagaki> 
inagaki> On Thu, 08 Dec 2005 14:58:01 +0900 (JST), 
inagaki> Shinji Sumimoto <s-sumi @ flab.fujitsu.co.jp> wrote:
inagaki> 
inagaki> > プログラムを stat=all オプションを使った時に得られるCPU結果と実際の
inagaki> > elapse時間とは差がありますでしょうか? 
inagaki> > 
inagaki> > 例
inagaki> > $ scrun -nodes=4x1,stat=all ./a.out
inagaki> 
inagaki> これについては特に差が発生しませんでした。
inagaki> 
inagaki> [inagaki @ salers matrix]$ scrun -nodes=1x1,stat=all ./a.out
inagaki> SCore-D 5.8.3 connected.
inagaki> <0:0> SCORE: One node ready.
inagaki>      2.490 sec.
inagaki> 
inagaki> -=-=-=-= SCore-D Statistics =-=-=-=-
inagaki> Nodes:1, User:2.657[S], Elapsed:2.860[S], CSW:1, CKPT:0
inagaki> 1[hosts]x1[procs], salers00.clusters.ueda.info.waseda.ac.jp...salers00.clusters.ueda.info.waseda.ac.jp
inagaki> 
inagaki> #Node UsrTime  SysTime      Mem   Disk   #SC  IO  Exit
inagaki>     0 2.544[S]  63.0[m] 14.30[MB]  1[MB]   5 0[B]    0
inagaki>   Min 2.544[S]  63.0[m] 14.30[MB]  1[MB]   5 0[B]  ---
inagaki>   Max 2.544[S]  63.0[m] 14.30[MB]  1[MB]   5 0[B]  ---
inagaki>   Ave 2.544[S]  63.0[m] 14.30[MB]  1[MB]   5 0[B]  ---
inagaki> 
inagaki> [inagaki @ salers matrix]$ scrun -nodes=2x1,stat=all ./a.out
inagaki> SCore-D 5.8.3 connected.
inagaki> <0:0> SCORE: 2 nodes (2x1) ready.
inagaki>      7.210 sec.
inagaki>      7.220 sec.
inagaki> 
inagaki> -=-=-=-= SCore-D Statistics =-=-=-=-
inagaki> Nodes:2, User:7.448[S], Elapsed:7.651[S], CSW:1, CKPT:0
inagaki> 2[hosts]x1[procs], salers00.clusters.ueda.info.waseda.ac.jp...salers01.clusters.ueda.info.waseda.ac.jp
inagaki>  [0:0]
inagaki> Network:
inagaki> ethernet/ethernet:1[1];
inagaki>  [1:0] ethernet/ethernet:1[1];
inagaki> 
inagaki> #Node UsrTime  SysTime      Mem   Disk   #SC  IO  Exit
inagaki>     0 7.275[S]  80.0[m] 15.07[MB]  1[MB]   5 0[B]    0
inagaki>     1 7.280[S]  92.0[m] 14.80[MB]  1[MB]   5 0[B]    0
inagaki>   Min 7.275[S]  80.0[m] 14.80[MB]  1[MB]   5 0[B]  ---
inagaki>   Max 7.280[S]  92.0[m] 15.07[MB]  1[MB]   5 0[B]  ---
inagaki>   Ave 7.277[S]  86.0[m] 14.93[MB]  1[MB]   5 0[B]  ---
inagaki> 
inagaki> 
inagaki>  
inagaki> > また 以下のドキュメントにあるPM のテスト結果はどうでしょう?
inagaki> > 
inagaki> > http://www.pccluster.org/score/dist/score/html/ja/installation/pm-test.html
inagaki> 
inagaki> PM/Ethernet, PM/Shmem についてテストを行ったところ、
inagaki> PM/Ethernet の Point-to-Point テストの挙動に不審な部分がありました。
inagaki> 
inagaki> rpmtest が普通に成功する場合と応答が返ってこない場合があり、その割合は
inagaki> 後者の方が多いです。計算ノードの /proc/pm/ethernet/0/info を見てみたと
inagaki> ころ
inagaki> 
inagaki> Dev error       :       2
inagaki> 
inagaki> という値が設定されていました。他の計算ノードでも 0 以上の値が設定され
inagaki> ていたので、何かしら PM ドライバ周辺でエラーが発生しているということを
inagaki> 意味しているのでしょうか・・・?
inagaki> 
inagaki> 使用しているネットワークデバイスは Broadcom BCM5721 で Fedora Core 4
inagaki> では tg3 ドライバを使用しています。
inagaki> 
inagaki> PM/Ethernet の scstest, PM/Shmem のすべてのテストについてはエラーなど
inagaki> は発生しませんでした。
inagaki> 
inagaki> _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/
inagaki>   早稲田大学大学院 理工学研究科
inagaki>   情報・ネットワーク専攻 上田研究室 D1
inagaki> 
inagaki>   稲垣 良一  <inagaki @ ueda.info.waseda.ac.jp> 
inagaki> _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/
------
Shinji Sumimoto, Fujitsu Labs



SCore-users-jp メーリングリストの案内