[SCore-users-jp] LinpackでHPL.datが開けない&プロセッサ数の異なるホストの混在

Yoshihiro ISHIKAWA yoshihiro551230 @ bc.wakwak.com
2003年 11月 30日 (日) 08:49:04 JST


亀山 様

御返答感謝いたします.

etherpmctlですが,全ての計算ホストで以下のようにデフォルトの状態から,
eth1に対応する部分のコメントアウトを外した状態となっています.

networkはeth0,eth1ともにきちんとつながっており,相互にrloginできること
を確認しました.

pm-ethernet-*.confのパラメータはいじっていません.

不思議に思うのは,NICも含めて同じハードウェアを搭載しているPentium4の
ホスト同士なら正常に動作し,同様に,同じハードウェアを搭載しているXeonの
ホスト同士なら正常に動作するということです.ひょっとしたら使っているNICの
種類やスピードが違うことが影響しているということはないでしょうか?

現在の構成では,

Pentium4のホスト
eth0:eepro100(Intel Pro 100B)
eth1:e1000(Intel Pro 1000MT)

Xeonのホスト
eth0:e1000(Intel Pro 1000MT)
eth1:e1000(Intel Pro 1000MT)

となっており,Xeonのeth0系は100Base-TXのスイッチにつなげて使っています.

== /etc/rc.d/init.d/pm_ethernetの変更部分 ==========================
        if [ x$module != x ]; then
            modprobe pm_ethernet_dev
        fi
        /sbin/etherpmctl $IF -pm on -ir $INTERRUPT_REAPING -unit $UNIT
        /sbin/etherpmctl eth1 -pm on -ir $INTERRUPT_REAPING -unit 1
#       /sbin/etherpmctl eth2 -pm on -ir $INTERRUPT_REAPING -unit 2
#       /sbin/etherpmctl eth3 -pm on -ir $INTERRUPT_REAPING -unit 3
        touch /var/lock/subsys/pm_ethernet
        ;;
  stop)
        echo -n "Stopping PM/Ethernet: "
        /sbin/etherpmctl $IF -pm off
        /sbin/etherpmctl eth1 -pm off
#       /sbin/etherpmctl eth2 -pm off
#       /sbin/etherpmctl eth3 -pm off
        if [ x$module != x ]; then
            rmmod pm_ethernet_dev
        fi
================================================================

ちなみに,scstestでは以下のようなエラーメッセージが出ます.

== scstestの実行結果 =====================================
[root @ score01 deploy]# ./scstest -network ethernet
SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16)
cluster01( 0) burst: pmGetSendBuffer: Connection timed out(110)
cluster02( 1) burst: pmGetSendBuffer: Connection timed out(110)
cluster03( 2) burst: pmGetSendBuffer: Connection timed out(110)
cluster04( 3) burst: pmGetSendBuffer: Connection timed out(110)
cluster11( 4) burst: pmGetSendBuffer: Connection timed out(110)
cluster12( 5) burst: pmGetSendBuffer: Connection timed out(110)
cluster13( 6) burst: pmGetSendBuffer: Connection timed out(110)
cluster14( 7) burst: pmGetSendBuffer: Connection timed out(110)
cluster15( 8) burst: pmGetSendBuffer: Connection timed out(110)
cluster16( 9) burst: pmGetSendBuffer: Connection timed out(110)
cluster17(10) burst: pmGetSendBuffer: Connection timed out(110)
cluster18(11) burst: pmGetSendBuffer: Connection timed out(110)
========================================================


====================================
岩手大学大学院工学研究科機械工学専攻
航空宇宙システム部門/船崎・山田研究室
修士課程1年 石川慶拓 Yoshihiro Ishikawa
mail yoshihiro551230 @ bc.wakwak.com
====================================


----- Original Message ----- 
From: <kameyama @ pccluster.org>
To: "Yoshihiro ISHIKAWA" <yoshihiro551230 @ bc.wakwak.com>
Cc: "SCoreメーリングリスト" <score-users-jp @ pccluster.org>
Sent: Friday, November 28, 2003 2:23 PM
Subject: Re: [SCore-users-jp] LinpackでHPL.dat が開けない&プロセッサ数の異
なるホストの混在


> 亀山です.
>
> In article <00ce01c3b56c$331f71a0$6f501da0 @ airfoceone> "Yoshihiro
ISHIKAWA" <yoshihiro551230 @ bc.wakwak.com> wrotes:
> > 以前,サーバと計算ホストを兼ねて構築したときは,他の
> > 計算ホストに同じディレクトリ・ファイル構造を実現しなく
> > てもLinpackが走ったのですが,この場合はSCoreが自動
> > 的に/var/scored/以下へファイルをコピーしてくれたから
> > なのでしょうか?
>
> この場合, server と compute host を兼用していたホストがたまたま
> HPL.dat を読む node 0 に該当していたためだと思います.
>
> > それと,Xeonのsmp(smp=2)とPentium4(smp=1)でクラスタ
> > を構築したいのですが,このような構成は可能でしょうか?
>
> 可能です.
> ただ, scrun のときに
>     scrun -nodes=4x1+8x2 ...
> とか指定する必要があるかもしれません.
>
> > この設定で,pentium4のホストとxeonのホストの間でPoint to Point
> > テストを実行すると,下記のようなエラーが出ます.
> > ==============================================================
> > [root @ score01 sbin]# ./rpmtest cluster11 ethernet -dest 0 -ping
> > Ethernet PM context #0 information (unit 0)
> >  channel 0 descripter information
>
> scorehosts.db は問題がなさそうでした.
> あとの問題は
>     /opt/score/etc/pm-ethernet-[01].conf が正しいか?
>     etherpmctl は正しく設定されているか?
>     network は両方ともきちんとつながっているか?
>     pm-ethernet-*.conf のパラメータは正しいか?
> あたりがきになりますが...
>
>                        from Kameyama Toyohisa
>
>





SCore-users-jp メーリングリストの案内