[SCore-users-jp] Re: [score-info-jp] SCore support for GbE cards
NISHIDA Akira
nishida @ is.s.u-tokyo.ac.jp
2002年 6月 6日 (木) 17:02:06 JST
西田です.
頂いたファイルを使用して, テストを行ってみました. 結果を以下に
添付させて頂きます.
いくつか異常と思われる箇所 (★印の部分) があるのですが, これらは
既知の問題でしょうか.
--
西田 晃
東京大学 大学院情報理工学系研究科コンピュータ科学専攻
E-mail : nishida @ is.s.u-tokyo.ac.jp
* テスト環境
SCore 5.0.1 + 送って頂いたファイル
ノード構成: dual Xeon 2GHz x 4
out0.is.s.u-tokyo.ac.jp サーバ・計算ホスト
out1-3.is.s.u-tokyo.ac.jp 計算ホスト
NIC: 3C920, Broadcom GbE
(GbE (eth1) のアドレスは 192.168.0.1-4)
OS: Red Hat Linux 7.2 に手動でインストール.
kernel: linux-2.4.18 + linux2.4.18.score.patch
+linux2.4.18.score2.patch
* dmesg の出力結果
PM memory support
Register pm_memory as major(123)
PM/Ethernet: "$Id: pm_ethernet_dev.c,v 1.1.2.1 2002/03/28 03:05:14 kameyama Exp $"
PM/Ethernet: register etherpm device as major(122)
pmshmem: version = $Id: pm_shmem.c,v 1.1 2002/02/18 11:40:10 kameyama Exp $
pmshmem_init: register pm_shmem as major(124)
etherpm0: 16 contexts using 4096KB MEM, maxunit=4, maxnodes=512, mtu=1468, eth1.
etherpm0: Interrupt Reaping on eth1, irq 20
* サーバホストの設定
% cat /opt/score/etc/scorehosts.db
/*
* SCore 3.0 scorehosts.db
* This is a sample of scorehosts.db.
*/
/* PM/Myrinet */
myrinet type=myrinet \
-firmware:file=/opt/score/share/lanai/lanai.mcp \
-config:file=/opt/score/etc/pm-myrinet.conf
/* PM/Ethernet */
ethernet type=ethernet \
-config:file=/opt/score/etc/pm-ethernet.conf
/* PM/Agent/UDP */
udp type=agent -agent=pmaudp \
-config:file=/opt/score/etc/pm-udp.conf
/* PM/SHMEM */
% cat /opt/score/etc/pm-udp.conf
# Host Number Host Name [IP Address]
0 out0.is.s.u-tokyo.ac.jp 192.168.0.1
1 out1.is.s.u-tokyo.ac.jp 192.168.0.2
2 out2.is.s.u-tokyo.ac.jp 192.168.0.3
3 out3.is.s.u-tokyo.ac.jp 192.168.0.4
% cat /opt/score/etc/pm-ethernet.conf
unit 0
# maxnsend 0 - 32
# maxnsend 0
# backoff 1000 - 20000 (usec)
backoff 4800
# checksum (0 if off, 1 is on)
checksum 0
# PE MAC address base hostname # comment
0 00:10:18:01:7E:3E out0.is.s.u-tokyo.ac.jp # on eth1
1 00:10:18:01:7E:60 out1.is.s.u-tokyo.ac.jp # on eth1
2 00:10:18:00:07:B6 out2.is.s.u-tokyo.ac.jp # on eth1
3 00:10:18:00:07:D0 out3.is.s.u-tokyo.ac.jp # on eth1
* PM テスト結果
% hostname
out0.is.s.u-tokyo.ac.jp
% scorehosts -l -g pcc
out0.is.s.u-tokyo.ac.jp
out1.is.s.u-tokyo.ac.jp
out2.is.s.u-tokyo.ac.jp
out3.is.s.u-tokyo.ac.jp
4 hosts found.
% sceptic -v -g pcc ★ 異常
out0.is.s.u-tokyo.ac.jp: scping FAILED
out1.is.s.u-tokyo.ac.jp: scping FAILED
out2.is.s.u-tokyo.ac.jp: OK
out3.is.s.u-tokyo.ac.jp: scping FAILED
out1.is.s.u-tokyo.ac.jp: OK
out0.is.s.u-tokyo.ac.jp: OK
out3.is.s.u-tokyo.ac.jp: OK
All host responding.
% msgb -group pcc &
[1] 29579
% scout -g pcc
SCOUT: Spawning done.
SCOUT: session started.
scout
[out0-3]:
SCOUT(5.0.1): Ready.
% date
Thu Jun 6 14:45:37 JST 2002
% scout date
[out0-3]:
Thu Jun 6 14:45:38 JST 2002
* PM/Ethernet テスト結果
% cd /opt/score/sbin
(% ./rpmtest out1.is.s.u-tokyo.ac.jp ethernet -reply)
% ./rpmtest out0.is.s.u-tokyo.ac.jp ethernet -dest 1 -ping
8 0.00096654
% ./scstest -network ethernet ★ 異常
SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16)
out0( 0) burst: pmGetSendBuffer: Connection timed out(110)
out2( 2) burst: pmGetSendBuffer: Connection timed out(110)
out3( 3) burst: pmGetSendBuffer: Connection timed out(110)
out1( 1) burst: pmGetSendBuffer: Connection timed out(110)
* PM/Agent/UDP テスト結果
% cd /opt/score/sbin
% ./rpmtest out0.is.s.u-tokyo.ac.jp udp -iter 10000 -dest 0 -ping
8 4.47301e-05
(./rpmtest out1.is.s.u-tokyo.ac.jp udp -reply)
% ./rpmtest out0.is.s.u-tokyo.ac.jp udp -iter 10000 -dest 1 -ping
8 0.000181472
* PM/Shmem テスト結果
% cd /opt/score/sbin
% ./rpminit out0.is.s.u-tokyo.ac.jp shmem0
% ./rpmtest out0.is.s.u-tokyo.ac.jp shmem0 -dest 1 -ping
8 1.21174e-06
(%./rpmtest out0.is.s.u-tokyo.ac.jp shmem1 -reply)
% ./rpmtest out0.is.s.u-tokyo.ac.jp shmem0 -dest 1 -vread ★ 異常
8 3.0676e+06
* SCore-D テスト結果
Single-User 環境
% printenv |grep SCBD
SCBDSERV=out0.is.s.u-tokyo.ac.jp
% msgb -group pcc &
% cp /opt/score/example/mttl/hello.cc /tmp
% cd /tmp
% mpc++ -o hello hello.cc
% scrun -nodes=1 ./hello ★ 異常
FEP:ERROR Command not found (./hello)
% cp /opt/score/example/mpi/cpi.c /tmp
% mpicc -o cpi cpi.c -lm
% scrun ./cpi ★ 異常
FEP:ERROR Command not found (./cpi)
% exit
exit
SCOUT: Session done.
Multi-User 環境
(% /bin/su -
Password:
[root @ out0 root]# scout -g pcc
SCOUT: Spawning done.
SCOUT: session started.
[root @ out0 root]# scored
SYSLOG: /opt/score/deploy/scored
SYSLOG: SCore-D 5.0.1 $Id: init.cc,v 1.66 2002/02/13 04:18:40 hori Exp $
SYSLOG: Compile option(s):
SYSLOG: SCore-D network: ethernet/ethernet
SYSLOG: Cluster[0]: (0..3)x2.i386-redhat7-linux2_4.xeon.2000
SYSLOG: Memory: 1004[MB], Swap: 1993[MB], Disk: 15080[MB]
SYSLOG: Network[0]: ethernet/ethernet
SYSLOG: Network[1]: udp/agent
SYSLOG: Scheduler initiated: Timeslice = 500 [msec]
SYSLOG: Queue[0] activated, exclusive scheduling
SYSLOG: Queue[1] activated, time-sharing scheduling
SYSLOG: Queue[2] activated, time-sharing scheduling
SYSLOG: Session ID: 0
SYSLOG: Server Host: out3.is.s.u-tokyo.ac.jp
SYSLOG: Backup Host: out1.is.s.u-tokyo.ac.jp
SYSLOG: Operated by: root
SYSLOG: ========= SCore-D (5.0.1) bootup in SECURE MODE ========)
% scrun -scored=out0.is.s.u-tokyo.ac.jp ./hello ★ 異常
FEP:ERROR Command not found (./hello)
% setenv SCORE_OPTIONS scored=out0.is.s.u-tokyo.ac.jp
% scrun ./cpi ★ 異常
FEP:ERROR Command not found (./cpi)
% mpirun ./cpi ★ 異常
FEP:ERROR Command not found (/tmp/./cpi)
% su -
Password:
# sc_console out0.is.s.u-tokyo.ac.jp -c shutdown ★ 異常
Unable to connect with out0.is.s.u-tokyo.ac.jp:9991.
(scored を起動したウィンドウで Ctrl-C.)
# exit
exit
SCOUT: Session done.
* デモ実行結果
% scout -g pcc
SCOUT: Spawning done.
SCOUT: session started.
% cd /opt/score/demo/mandel
% scrun -nodes=4 /opt/score/demo/bin/mandel ★ 異常
FEP: Unable to connect with SCore-D (out0.is.s.u-tokyo.ac.jp)
SCore-D 5.0.1 connected.
<0> SCORE-D:ERROR pmGetSendBuffer(dest=2,size=1388) timed out
<0> ULT: Exception Signal (11)
<0> SCORE: Program signaled (SIGTERM).
% scrun /opt/score/demo/bin/mandel ★ 異常
FEP: Unable to connect with SCore-D (out0.is.s.u-tokyo.ac.jp)
SCore-D 5.0.1 connected.
<0> SCORE-D:ERROR pmGetSendBuffer(dest=2,size=1388) timed out
<0> ULT: Exception Signal (11)
(Ctrl-C で停止)
% scrun -nodes=4,scored=out0.is.s.u-tokyo.ac.jp /opt/score/demo/bin/mandel ★ 異常
SCore-D 5.0.1 connected (jid=1).
<0> SCORE-D:ERROR pmGetSendBuffer(dest=2,size=1388) timed out
<0> ULT: Exception Signal (11)
<0> SCORE: Program signaled (SIGTERM).
(scored を停止)
% mpirun -np 4 /opt/score/demo/bin/pmandel ★ 異常
FEP: Unable to connect with SCore-D (out0.is.s.u-tokyo.ac.jp)
SCore-D 5.0.1 connected.
<0> SCORE-D:ERROR pmGetSendBuffer(dest=2,size=1388) timed out
<0> ULT: Exception Signal (11)
<0> SCORE: Program signaled (SIGTERM).
(scored を起動)
% scrun -nodes=4,scored=out0.is.s.u-tokyo.ac.jp /opt/score/demo/bin/pmandel ★ 異常
SCore-D 5.0.1 connected (jid=1).
<0> SCORE-D:ERROR pmGetSendBuffer(dest=2,size=1388) timed out
<0> ULT: Exception Signal (11)
<0> SCORE: Program signaled (SIGTERM).
From: NISHIDA Akira <nishida @ is.s.u-tokyo.ac.jp>
Subject: Re: [SCore-users-jp] Re: [score-info-jp] SCore support for GbE cards
Date: Wed, 05 Jun 2002 15:24:25 +0900 (JST)
> 西田です.
>
> > 住元です。
> >
> > Broadcom 5700 (3Com 966 etc..) については動作確認済です。
> >
> > ただし、性能を出すためには、デバイスドライバを新しくする必要がある
> > (SCore 5.0.1に入っているのはちょっと古いです)のと、デバイスドライバの
> > パラメータのチューニングを行う必要があります。ちゃんとチューニングする
> > と結構良い性能だったりします。
> > 今日、新しいドライバと初期値を変更したものをコンソーシアムのマシンの
> > CVSにCommitしましたので、必要なら石川研究室に行ってもらってください。
> > あと、PM/EthernetでのSCASHですが、SCASHが使っているPM/EthernetのpmRead
> > の実装は最適化の余地があり、現在作業中です。
> > ですので、とりあえず現状ので試して頂いて、是非,結果を測定して教えて頂
> > ければと思います。
>
> 今新しいファイルを送って頂きました. ありがとうございました.
> さっそく評価してみます.
>
> --
> 西田 晃
> 東京大学 大学院情報理工学系研究科コンピュータ科学専攻
> E-mail : nishida @ is.s.u-tokyo.ac.jp
>
> > From: NISHIDA Akira <nishida @ is.s.u-tokyo.ac.jp>
> > Subject: [SCore-users-jp] Re: [score-info-jp] SCore support for GbE cards
> > Date: Tue, 04 Jun 2002 21:45:03 +0900 (JST)
> > Message-ID: <20020604.214503.46616373.nishida @ is.s.u-tokyo.ac.jp>
> >
> > nishida> 西田です.
> > nishida>
> > nishida> > 既に、カードをお持ちならば、まず、性能を計測して頂いて、その結果を
> > nishida> > メーリングリストに流して頂けると幸いです。
> > nishida>
> > nishida> 特定のアーキテクチャには依存していないということですね. 了解しました.
> > nishida> 評価してみます.
> > nishida>
> > nishida> --
> > nishida> 西田 晃
> > nishida> 東京大学 大学院情報理工学系研究科コンピュータ科学専攻
> > nishida> E-mail : nishida @ is.s.u-tokyo.ac.jp
> > nishida>
> > nishida> >
> > nishida> > 石川@隣の部屋から:-)
> > nishida> >
> > nishida> > From: NISHIDA Akira <nishida @ is.s.u-tokyo.ac.jp>
> > nishida> > > 既存のクラスタ上に搭載されている NIC は 3C920 と Broadcom GbE
> > nishida> > > の2種類なのですが, ギガビットイーサネット上で十分な通信性能を得る
> > nishida> > > には, Syskonnect 製のカードなどを別途調達する必要があるのでしょうか.
> > nishida> > > それとも一般の GbE カードで構わないのでしょうか.
> > nishida> >
> > nishida> >
> > nishida> > >
> > nishida> > > 以上, お手数ですがご教示いただければ幸いです.
> > nishida> > >
> > nishida> > > --
> > nishida> > > 西田 晃
> > nishida> > > 東京大学 大学院情報理工学系研究科コンピュータ科学専攻
> > nishida> > > E-mail : nishida @ is.s.u-tokyo.ac.jp
> > nishida> > >
> > nishida> > >
> > nishida> > >
> > nishida> > > _______________________________________________
> > nishida> > > score-info-jp mailing list
> > nishida> > > score-info-jp @ pccluster.org
> > nishida> > > http://www.pccluster.org/mailman/listinfo/score-info-jp
> > nishida> >
> > nishida> _______________________________________________
> > nishida> SCore-users-jp mailing list
> > nishida> SCore-users-jp @ pccluster.org
> > nishida> http://www.pccluster.org/mailman/listinfo/score-users-jp
> > nishida>
> > ------
> > Shinji Sumimoto, Fujitsu Labs
> >
>
SCore-users-jp メーリングリストの案内