[SCore-users-jp] LinpackでHPL.datが開けない&プロセッサ数の異なるホストの混在

Yoshihiro ISHIKAWA yoshihiro551230 @ bc.wakwak.com
2003年 11月 28日 (金) 13:58:01 JST


亀山 様

全てのホストでディレクトリ・ファイルの構造を一致させると
問題なく動作しました.ありがとうございました.

以前,サーバと計算ホストを兼ねて構築したときは,他の
計算ホストに同じディレクトリ・ファイル構造を実現しなく
てもLinpackが走ったのですが,この場合はSCoreが自動
的に/var/scored/以下へファイルをコピーしてくれたから
なのでしょうか?

それと,Xeonのsmp(smp=2)とPentium4(smp=1)でクラスタ
を構築したいのですが,このような構成は可能でしょうか?

実際にやってみたところ,Xeon同士,Petium4同士の構成
では,各種テストが問題なく動作したのですが,混在させる
とエラーが出てしまいました.このときのscorehosts.dbは
過去のメーリングリストを参考に以下のようにしました.

== scorehosts.db ========================================
/* PM/Ethernet */
ethernet        type=ethernet \
                    -config:file=/opt/score/etc/pm-ethernet-0.conf \
                    -trunk0:file=/opt/score/etc/pm-ethernet-1.conf

/* PM/Shmem */
shmem0         type=shmem0  -node=0
shmem1         type=shmem1  -node=1

/* Macro to difine a host */
#define PCC     msgbserv=(score01.iwate-u.ac.jp:8764) \
                      group=all

cluster01.iwate-u.ac.jp \
 network=ethernet cpugen=pentium-4 speed=2200 smp=1 PCC
cluster02.iwate-u.ac.jp \
 network=ethernet  cpugen=pentium-4 speed=2200 smp=1 PCC
cluster03.iwate-u.ac.jp \
 network=ethernet  cpugen=pentium-4 speed=2200 smp=1 PCC
cluster04.iwate-u.ac.jp \
 network=ethernet  cpugen=pentium-4 speed=2200 smp=1 PCC
cluster11.iwate-u.ac.jp \
 network=ethernet,shmem0,shmem1 cpugen=xeon speed=2400 smp=2 PCC
cluster12.iwate-u.ac.jp \
 network=ethernet,shmem0,shmem1 cpugen=xeon speed=2400 smp=2 PCC
cluster13.iwate-u.ac.jp \
 network=ethernet,shmem0,shmem1 cpugen=xeon speed=2400 smp=2 PCC
cluster14.iwate-u.ac.jp \
 network=ethernet,shmem0,shmem1 cpugen=xeon speed=2400 smp=2 PCC
cluster15.iwate-u.ac.jp \
 network=ethernet,shmem0,shmem1 cpugen=xeon speed=2400 smp=2 PCC
cluster16.iwate-u.ac.jp \
 network=ethernet,shmem0,shmem1 cpugen=xeon speed=2400 smp=2 PCC
cluster17.iwate-u.ac.jp \
 network=ethernet,shmem0,shmem1 cpugen=xeon speed=2400 smp=2 PCC
cluster18.iwate-u.ac.jp \
 network=ethernet,shmem0,shmem1 cpugen=xeon speed=2400 smp=2 PCC
=======================================================

この設定で,pentium4のホストとxeonのホストの間でPoint to Point
テストを実行すると,下記のようなエラーが出ます.

==============================================================
[root @ score01 sbin]# ./rpmtest cluster11 ethernet -dest 0 -ping
Ethernet PM context #0 information (unit 0)
 channel 0 descripter information
  rx_p=00000000, rx_c=00000000, rx_bp=00000000, rx_bc=00000000
  tx_p=00000001, tx_c=00000000, tx_bp=00000080, tx_bc=00000000

 channel 0 statistics information
  st_txmit=c4df2400, st_rexmit=0ddd54ef, st_xmit_ctl=04d62531
  st_xmit_ack=0ddd5814 st_xmit_lost=11e7d6c2, st_xmit_stop=15e9070a
  st_xmit_err=6eedd6c3, st_xmit_received=15e9070b, st_rcv_valid=cfe8d6c6
  st_rcv_ackonly=15e9070c, st_rcv_igonore=60c6d6c7, st_rcv_lose=0ee9070d
  st_rcv_ov=0409c7df,st_rcv_ov=0000000e
  st_rcv_stop=ff010207, st_rcv_go=0000000b
pmReceive: Connection timed out(110)
===============================================================

Pentium4とPentium4同士では以下のように正常です.

=======================================================
[root @ score01 sbin]# ./rpmtest cluster02 ethernet -dest 0 -ping
8       5.66189e-05
=======================================================

以上ですが,何かわかることがあればご教授下さい.
よろしくお願いいたします.


----- Original Message ----- 
From: <kameyama @ pccluster.org>
To: "Yoshihiro ISHIKAWA" <yoshihiro551230 @ bc.wakwak.com>
Cc: "SCoreメーリングリスト" <score-users-jp @ pccluster.org>
Sent: Friday, November 28, 2003 9:09 AM
Subject: Re: [SCore-users-jp] LinpackでHPL.dat が開けない


> 亀山です.
>
> In article <008f01c3b4df$be3ad820$6f501da0 @ airfoceone> "Yoshihiro
ISHIKAWA" <yoshihiro551230 @ bc.wakwak.com> wrotes:
> > == ラーメッセージ
==========================================================
> > [root @ score01 hpl_4cpus]# scout
> > [cluster01-4]:
> > SCOUT(5.4.0): Ready.
> > [root @ score01 hpl_4cpus]# mpirun -np 4 xhpl
> > SCore-D 5.4.0 connected.
> > <0> SCORE-D:WARNING Unable to change directory (/root/hpl_4cpus), and
set to
> > /var/scored/singleuser/0/jobs/jid-1.
>
> SCore は server host と compute host で同じ directory を使用しようとして
> scrun を起動した host に cd しようとします.
> 一般 user に関しては, 通常 /home を NFS により共有するため,
> このしかけで compute host でも同じファイルを参照することができます.
>
> しかし, root に関しては, /root に host ごとの home directory を持ちます.
> これは共有していませんので, server と compute host で別の内容をみる
> ことになります.
> server で /root/hpl_4cpus を作成しても compute host では参照できません.
> それで, cd に失敗し, 仕方がないので /var/scored/singleuser/0/jobs/jid-1
> に移動しています.
> そこには  HPL.dat が存在しないので, 当然
>
> > HPL ERROR from process # 0, on line 292 of function HPL_pdinfo:
> > >>> cannot open file HPL.dat <<<
>
> ということになります.
>
> > 以上ですが,なにかお分かりの方がいましたらご教授ください.
>
> ということで, 解決策としましては,
>     1. server と compute host で共有している directory で実行する.
>     2. compute host に /root/hpl_4cpus をコピーする.
> あたりが考えられます.
>
> 多分, 一般ユーザで自分の home directory で作業するのがトラブルがないかと
> 思いますが...
>
>                        from Kameyama Toyohisa
> _______________________________________________
> SCore-users-jp mailing list
> SCore-users-jp @ pccluster.org
> http://www.pccluster.org/mailman/listinfo/score-users-jp
>





SCore-users-jp メーリングリストの案内