返信:[SCore-users-jp] rpmtest実行エラーにつ

kameyama @ pccluster.org kameyama @ pccluster.org
2004年 2月 19日 (木) 18:02:18 JST


亀山です.

In article <200402191710486354.295 @ star.fielding.nec.co.jp> <tanaka-yuuj @ star.fielding.nec.co.jp> wrotes:
> >myrinet2k の config file で host01 はどのように記述されているでしょうか?
> 
> 
> 下記のように記述しました。
> 
> #  NodeNumber	Hostname	switchNumber.portNumber
> 0	host01.local	0.15
> 1	host02.local	0.14
> 
> 
> >この dest の 0 というのは config file でつけた node 番号を示します.
> >このなかの host01 の記述が
> >    0               host01             0.15
> >のようになっていれば, これで self test を行うことになりますが,
> >別のホストになっていた場合はその host で
> >     % rpmtest host_of_dest0 myrinet2k -reply
> >が動いている必要があります.
> >(この場合 point to point test になります.)
> >動いていない場合は相手がいないので timeout になります.
> 
> 
> つまり、下記のようなコマンドですと self test になると思うのですが、
> 今回の場合ですと、2〜3回に1回くらいの割合で、エラーが表示されます。
> 
> #/opt/score/sbin/rpmtest host01 myrinet2k -dest 0 -ping
> #/opt/score/sbin/rpmtest host02 myrinet2k -dest 1 -ping

間違っていないようですね...

pont to point test は成功するでしょうか?
   % /opt/score/sbin/rpmtest host02 myrinet2k -reply &
   % /opt/score/sbin/rpmtest host01 myrinet2k -dest 1 -ping
成功したとき, host02 の rpmtest をそのままにして,
   % /opt/score/sbin/rpmtest host01 myrinet2k -dest 0 -ping
を行うとどうなるでしょうか?

> 上記のコマンドが間違ってないとすると、"scstest"や"rcstest"が成功して
> "rpmtest" が失敗するということはあるのでしょうか?

普通はないはずなんですが...

> ※"scstest"、"rsctset"、"rpmtest" の3つのコマンドで大きな差は
>  あるのでしょうか?

(全体で 2 台と仮定して書きますが...)
この場合の大きな差は scstest, rcstest が point to point のテストを
行っているのにたいして, rpmtest にこの使用方法ですと loop back test
を行っていることです.

多分, host01 と host02 の物理的な接続は以下のようになっていると思います.

         myrinet-switch
         15          14
         |           |
        host01      host02

scstest, rcstest は host01 <-> myrinet-switch <-> host02 の
通信を行います.
これにたいして, rpmtest では host01 <-> myrinet-switch
と通信を行います.
これがエラーになるとすると, 考えられるのは,
以下ぐらいだと思います.

1. switch の port が実は間違っている.
   myrinet の config file に書いているのと port が逆とか...
   (で, rcstest, scstest が動くことは説明できるかもしれませんが\
   何回かは動くというのは...)
2. myrinet ケーブルに問題がある.
3. myrinet switch に問題がある.
   switch に monitor card がついていれば, それを ether でつないで
   web でみればエラーかなにかがわかるかもしれません.

いずれも, 2, 3 回に 1 回成功すること, rcstest, scstest が成功
することが説明できないような...

                       from Kameyama Toyohisa



SCore-users-jp メーリングリストの案内