[SCore-users-jp] Re: [score-info-jp] SCore support for GbE cards

NISHIDA Akira nishida @ is.s.u-tokyo.ac.jp
2002年 6月 6日 (木) 17:02:06 JST


西田です. 

頂いたファイルを使用して, テストを行ってみました. 結果を以下に
添付させて頂きます. 
いくつか異常と思われる箇所 (★印の部分) があるのですが, これらは
既知の問題でしょうか. 

--
西田 晃
東京大学 大学院情報理工学系研究科コンピュータ科学専攻
E-mail : nishida @ is.s.u-tokyo.ac.jp


* テスト環境

SCore 5.0.1 + 送って頂いたファイル

ノード構成: dual Xeon 2GHz x 4
out0.is.s.u-tokyo.ac.jp		サーバ・計算ホスト
out1-3.is.s.u-tokyo.ac.jp	計算ホスト

NIC: 3C920, Broadcom GbE 
(GbE (eth1) のアドレスは 192.168.0.1-4)

OS: Red Hat Linux 7.2 に手動でインストール.
kernel: linux-2.4.18 + linux2.4.18.score.patch
	+linux2.4.18.score2.patch


* dmesg の出力結果

PM memory support
Register pm_memory as major(123)
PM/Ethernet: "$Id: pm_ethernet_dev.c,v 1.1.2.1 2002/03/28 03:05:14 kameyama Exp $"
PM/Ethernet: register etherpm device as major(122)
pmshmem: version = $Id: pm_shmem.c,v 1.1 2002/02/18 11:40:10 kameyama Exp $
pmshmem_init: register pm_shmem as major(124)
etherpm0: 16 contexts using 4096KB MEM, maxunit=4, maxnodes=512, mtu=1468, eth1.
etherpm0: Interrupt Reaping on eth1, irq 20


* サーバホストの設定

% cat /opt/score/etc/scorehosts.db
/*
 *      SCore 3.0 scorehosts.db
 *      This is a sample of scorehosts.db.
 */

/* PM/Myrinet */
myrinet type=myrinet \
                -firmware:file=/opt/score/share/lanai/lanai.mcp \
                -config:file=/opt/score/etc/pm-myrinet.conf

/* PM/Ethernet */
ethernet        type=ethernet \
                -config:file=/opt/score/etc/pm-ethernet.conf
/* PM/Agent/UDP */
udp             type=agent -agent=pmaudp \
                -config:file=/opt/score/etc/pm-udp.conf
/* PM/SHMEM */

% cat /opt/score/etc/pm-udp.conf
# Host Number   Host Name               [IP Address]
0           out0.is.s.u-tokyo.ac.jp     192.168.0.1
1           out1.is.s.u-tokyo.ac.jp     192.168.0.2
2           out2.is.s.u-tokyo.ac.jp     192.168.0.3
3           out3.is.s.u-tokyo.ac.jp     192.168.0.4

% cat /opt/score/etc/pm-ethernet.conf 
unit 0
# maxnsend 0 - 32
# maxnsend 0
# backoff 1000 - 20000 (usec)
backoff 4800
# checksum (0 if off, 1 is on)
checksum 0
# PE    MAC address             base hostname           # comment
0       00:10:18:01:7E:3E       out0.is.s.u-tokyo.ac.jp # on eth1
1       00:10:18:01:7E:60       out1.is.s.u-tokyo.ac.jp # on eth1
2       00:10:18:00:07:B6       out2.is.s.u-tokyo.ac.jp # on eth1
3       00:10:18:00:07:D0       out3.is.s.u-tokyo.ac.jp # on eth1


* PM テスト結果

% hostname
out0.is.s.u-tokyo.ac.jp
% scorehosts -l -g pcc
out0.is.s.u-tokyo.ac.jp
out1.is.s.u-tokyo.ac.jp
out2.is.s.u-tokyo.ac.jp
out3.is.s.u-tokyo.ac.jp
4 hosts found.

% sceptic -v -g pcc	★ 異常
out0.is.s.u-tokyo.ac.jp: scping FAILED
out1.is.s.u-tokyo.ac.jp: scping FAILED
out2.is.s.u-tokyo.ac.jp: OK
out3.is.s.u-tokyo.ac.jp: scping FAILED
out1.is.s.u-tokyo.ac.jp: OK
out0.is.s.u-tokyo.ac.jp: OK
out3.is.s.u-tokyo.ac.jp: OK
All host responding.

% msgb -group pcc & 
[1] 29579

% scout -g pcc
SCOUT: Spawning done.                  
SCOUT: session started.
scout
[out0-3]:
SCOUT(5.0.1): Ready.

% date
Thu Jun  6 14:45:37 JST 2002

% scout date
[out0-3]:
Thu Jun  6 14:45:38 JST 2002


* PM/Ethernet テスト結果

% cd /opt/score/sbin
(% ./rpmtest out1.is.s.u-tokyo.ac.jp ethernet -reply)

% ./rpmtest out0.is.s.u-tokyo.ac.jp ethernet -dest 1 -ping
8       0.00096654

% ./scstest -network ethernet	★ 異常
SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16)
out0( 0) burst: pmGetSendBuffer: Connection timed out(110)
out2( 2) burst: pmGetSendBuffer: Connection timed out(110)
out3( 3) burst: pmGetSendBuffer: Connection timed out(110)
out1( 1) burst: pmGetSendBuffer: Connection timed out(110)


* PM/Agent/UDP テスト結果

% cd /opt/score/sbin
% ./rpmtest out0.is.s.u-tokyo.ac.jp udp -iter 10000 -dest 0 -ping
8       4.47301e-05

(./rpmtest out1.is.s.u-tokyo.ac.jp udp -reply)
% ./rpmtest out0.is.s.u-tokyo.ac.jp udp -iter 10000 -dest 1 -ping
8       0.000181472


* PM/Shmem テスト結果

% cd /opt/score/sbin
% ./rpminit out0.is.s.u-tokyo.ac.jp shmem0

% ./rpmtest out0.is.s.u-tokyo.ac.jp shmem0 -dest 1 -ping
8       1.21174e-06

(%./rpmtest out0.is.s.u-tokyo.ac.jp shmem1 -reply)
% ./rpmtest out0.is.s.u-tokyo.ac.jp shmem0 -dest 1 -vread	★ 異常
8       3.0676e+06


* SCore-D テスト結果

Single-User 環境

% printenv |grep SCBD
SCBDSERV=out0.is.s.u-tokyo.ac.jp
% msgb -group pcc & 
% cp /opt/score/example/mttl/hello.cc /tmp
% cd /tmp

% mpc++ -o hello hello.cc
% scrun -nodes=1 ./hello	★ 異常
FEP:ERROR Command not found (./hello)

% cp /opt/score/example/mpi/cpi.c /tmp
% mpicc -o cpi cpi.c -lm
% scrun ./cpi	★ 異常
FEP:ERROR Command not found (./cpi)

% exit
exit
SCOUT: Session done.

Multi-User 環境

(% /bin/su -
Password: 
[root @ out0 root]# scout -g pcc 
SCOUT: Spawning done.                  
SCOUT: session started.
[root @ out0 root]# scored
SYSLOG: /opt/score/deploy/scored
SYSLOG: SCore-D 5.0.1 $Id: init.cc,v 1.66 2002/02/13 04:18:40 hori Exp $
SYSLOG: Compile option(s): 
SYSLOG: SCore-D network: ethernet/ethernet
SYSLOG: Cluster[0]: (0..3)x2.i386-redhat7-linux2_4.xeon.2000
SYSLOG:   Memory: 1004[MB], Swap: 1993[MB], Disk: 15080[MB]
SYSLOG:   Network[0]: ethernet/ethernet
SYSLOG:   Network[1]: udp/agent
SYSLOG: Scheduler initiated: Timeslice = 500 [msec]
SYSLOG:   Queue[0] activated, exclusive scheduling
SYSLOG:   Queue[1] activated, time-sharing scheduling
SYSLOG:   Queue[2] activated, time-sharing scheduling
SYSLOG: Session ID: 0
SYSLOG: Server Host: out3.is.s.u-tokyo.ac.jp
SYSLOG: Backup Host: out1.is.s.u-tokyo.ac.jp
SYSLOG: Operated by: root
SYSLOG: ========= SCore-D (5.0.1) bootup in SECURE MODE ========)

% scrun -scored=out0.is.s.u-tokyo.ac.jp ./hello	★ 異常
FEP:ERROR Command not found (./hello)

% setenv SCORE_OPTIONS scored=out0.is.s.u-tokyo.ac.jp
% scrun ./cpi	★ 異常
FEP:ERROR Command not found (./cpi)

% mpirun ./cpi	★ 異常
FEP:ERROR Command not found (/tmp/./cpi)

% su - 
Password: 
# sc_console out0.is.s.u-tokyo.ac.jp -c shutdown	★ 異常
Unable to connect with out0.is.s.u-tokyo.ac.jp:9991.
(scored を起動したウィンドウで Ctrl-C.)
# exit
exit
SCOUT: Session done.


* デモ実行結果

% scout -g pcc
SCOUT: Spawning done.                  
SCOUT: session started.

% cd /opt/score/demo/mandel
% scrun -nodes=4 /opt/score/demo/bin/mandel	★ 異常
FEP: Unable to connect with SCore-D (out0.is.s.u-tokyo.ac.jp)
SCore-D 5.0.1 connected.
<0> SCORE-D:ERROR pmGetSendBuffer(dest=2,size=1388) timed out
<0> ULT: Exception Signal (11)

<0> SCORE: Program signaled (SIGTERM).

% scrun /opt/score/demo/bin/mandel	★ 異常
FEP: Unable to connect with SCore-D (out0.is.s.u-tokyo.ac.jp)
SCore-D 5.0.1 connected.
<0> SCORE-D:ERROR pmGetSendBuffer(dest=2,size=1388) timed out
<0> ULT: Exception Signal (11)

(Ctrl-C で停止)

% scrun -nodes=4,scored=out0.is.s.u-tokyo.ac.jp /opt/score/demo/bin/mandel	★ 異常
SCore-D 5.0.1 connected (jid=1).
<0> SCORE-D:ERROR pmGetSendBuffer(dest=2,size=1388) timed out
<0> ULT: Exception Signal (11)

<0> SCORE: Program signaled (SIGTERM).
(scored を停止)

% mpirun -np 4 /opt/score/demo/bin/pmandel	★ 異常
FEP: Unable to connect with SCore-D (out0.is.s.u-tokyo.ac.jp)
SCore-D 5.0.1 connected.
<0> SCORE-D:ERROR pmGetSendBuffer(dest=2,size=1388) timed out
<0> ULT: Exception Signal (11)

<0> SCORE: Program signaled (SIGTERM).
(scored を起動)

% scrun -nodes=4,scored=out0.is.s.u-tokyo.ac.jp /opt/score/demo/bin/pmandel	★ 異常
SCore-D 5.0.1 connected (jid=1).
<0> SCORE-D:ERROR pmGetSendBuffer(dest=2,size=1388) timed out
<0> ULT: Exception Signal (11)

<0> SCORE: Program signaled (SIGTERM).








From: NISHIDA Akira <nishida @ is.s.u-tokyo.ac.jp>
Subject: Re: [SCore-users-jp] Re: [score-info-jp] SCore support for GbE cards
Date: Wed, 05 Jun 2002 15:24:25 +0900 (JST)

> 西田です. 
> 
> > 住元です。
> > 
> > Broadcom 5700 (3Com 966 etc..) については動作確認済です。
> > 
> > ただし、性能を出すためには、デバイスドライバを新しくする必要がある
> > (SCore 5.0.1に入っているのはちょっと古いです)のと、デバイスドライバの
> > パラメータのチューニングを行う必要があります。ちゃんとチューニングする
> > と結構良い性能だったりします。
> > 今日、新しいドライバと初期値を変更したものをコンソーシアムのマシンの
> > CVSにCommitしましたので、必要なら石川研究室に行ってもらってください。
> > あと、PM/EthernetでのSCASHですが、SCASHが使っているPM/EthernetのpmRead
> > の実装は最適化の余地があり、現在作業中です。
> > ですので、とりあえず現状ので試して頂いて、是非,結果を測定して教えて頂
> > ければと思います。
> 
> 今新しいファイルを送って頂きました. ありがとうございました. 
> さっそく評価してみます. 
> 
> --
> 西田 晃
> 東京大学 大学院情報理工学系研究科コンピュータ科学専攻
> E-mail : nishida @ is.s.u-tokyo.ac.jp
> 
> > From: NISHIDA Akira <nishida @ is.s.u-tokyo.ac.jp>
> > Subject: [SCore-users-jp] Re: [score-info-jp] SCore support for GbE cards
> > Date: Tue, 04 Jun 2002 21:45:03 +0900 (JST)
> > Message-ID: <20020604.214503.46616373.nishida @ is.s.u-tokyo.ac.jp>
> > 
> > nishida> 西田です. 
> > nishida> 
> > nishida> > 既に、カードをお持ちならば、まず、性能を計測して頂いて、その結果を
> > nishida> > メーリングリストに流して頂けると幸いです。
> > nishida> 
> > nishida> 特定のアーキテクチャには依存していないということですね. 了解しました. 
> > nishida> 評価してみます. 
> > nishida> 
> > nishida> --
> > nishida> 西田 晃
> > nishida> 東京大学 大学院情報理工学系研究科コンピュータ科学専攻
> > nishida> E-mail : nishida @ is.s.u-tokyo.ac.jp
> > nishida> 
> > nishida> > 
> > nishida> > 石川@隣の部屋から:-)
> > nishida> > 
> > nishida> > From: NISHIDA Akira <nishida @ is.s.u-tokyo.ac.jp>
> > nishida> > > 既存のクラスタ上に搭載されている NIC は 3C920 と Broadcom GbE 
> > nishida> > > の2種類なのですが, ギガビットイーサネット上で十分な通信性能を得る
> > nishida> > > には, Syskonnect 製のカードなどを別途調達する必要があるのでしょうか. 
> > nishida> > > それとも一般の GbE カードで構わないのでしょうか. 
> > nishida> > 
> > nishida> > 
> > nishida> > > 
> > nishida> > > 以上, お手数ですがご教示いただければ幸いです. 
> > nishida> > > 
> > nishida> > > --
> > nishida> > > 西田 晃
> > nishida> > > 東京大学 大学院情報理工学系研究科コンピュータ科学専攻
> > nishida> > > E-mail : nishida @ is.s.u-tokyo.ac.jp
> > nishida> > > 
> > nishida> > > 
> > nishida> > > 
> > nishida> > > _______________________________________________
> > nishida> > > score-info-jp mailing list
> > nishida> > > score-info-jp @ pccluster.org
> > nishida> > > http://www.pccluster.org/mailman/listinfo/score-info-jp
> > nishida> > 
> > nishida> _______________________________________________
> > nishida> SCore-users-jp mailing list
> > nishida> SCore-users-jp @ pccluster.org
> > nishida> http://www.pccluster.org/mailman/listinfo/score-users-jp
> > nishida> 
> > ------
> > Shinji Sumimoto, Fujitsu Labs
> > 
> 



SCore-users-jp メーリングリストの案内