RE: [SCore-users-jp] PM/Ethernet 通信エ%i!<

Kuniko Hayakawa fruttac @ hotmail.com
2007年 6月 14日 (木) 18:49:25 JST


亀山様
お手数お掛け致します、早川です。

> 
> db ファイルを変更する必要はなかったのですが...
> scorehost のマニュアル
> 
> http://www.pccluster.org/score/dist/score-5.8.3/html/ja/man/man1/scorehosts.html
> に書かれている + ~ などの記述が SCore プログラムでグループを指定できる
> すべての場所で使用可能です.
> db にそのホストがかかれていれば, + でそのホストを追加したり,
> ~ でそのホストを削除したりできます.
> 
この操作は知りませんでした。ありがとうございました。
 
> host1, host3 は少なくても host2 で送ったものは受信しているようですが...
> host0, host1, host3 の相互間では一致していますね.
> 
> 原因は host2 (もしくは host0 と host2 の間の通信?) にありそうな気がします...
> (host0 だけ送信がかなり多いのも若干気になるところですが...
> host0 だけ NIC か CPU が良い?)
> 
全てのコンピューターで同じ構成を使っているのですが…
またhost0はサーバーと計算ホストを兼ねています。
ネットワークはギガビットを使っており、Cisco SystemsのCatalyst 3750 Switchを通して繋げております。


> とりあえず, 以下の順序でテストでしょうか?
> 1. host0, host1, host3 の 3 台で scstest を行って, 3 台で問題のないこと
> を確認
>    うまくいかない場合は host1, host2, host3 で行ってみる.
> 2. 上記に, 今回参加していない host4 を追加した 4 台で大丈夫か確認
> 3. host0 と host2 などうまくいかない host 間で point-to-point test.
> 
これらのテストを行って見ました。
1について、host0, host1, host3 の 3 台では次のようなエラーが出ました。
(長かったので途中はカットしました。)
ーーーーーーーーーーーーーーーーーーーーーーーー
-config:file=/opt/score5.8.3/etc/pm-ethernet.conf
type=ethernet
SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16)
 0 ->  2: 119991(1d4b7) -> 119767(1d3d7): 0(0)
Ethernet PM context #0 information (unit 0)
 channel 0 descripter information
  rx_p=000203ab, rx_c=000203a6, rx_bp=008732c0, rx_bc=00873180
  tx_p=000047e3, tx_c=000046e7, tx_bp=00269d80, tx_bc=00261f80

 channel 0 statistics information
  st_txmit=75483001, st_rexmit=04099a46, st_xmit_ctl=00002495
  st_xmit_ack=0000000a st_xmit_lost=0000e6a4, st_xmit_stop=ff01e6ff
  st_xmit_err=00002463, st_xmit_received=00001373, st_rcv_valid=0000015b
  st_rcv_ackonly=0001e893, st_rcv_igonore=0001d4bd, st_rcv_lose=00000131
  st_rcv_ov=000006ed,st_rcv_ov=00003ca2
  st_rcv_stop=00002ef0, st_rcv_go=00000e27
{2} 0 send=9171 recv = 119991
{2} 1 send=9232 recv = 12015
{2} 2 send=0 recv = 0
 0 ->  2: 119768(1d3d8) -> 119767(1d3d7): 0(0)

........(中略)........

Ethernet PM context #0 information (unit 0)
 channel 0 descripter information
  rx_p=000203ab, rx_c=000203a6, rx_bp=008732c0, rx_bc=00873180
  tx_p=000047e3, tx_c=000046e7, tx_bp=00269d80, tx_bc=00261f80

 channel 0 statistics information
  st_txmit=75483001, st_rexmit=04099a46, st_xmit_ctl=00002495
  st_xmit_ack=0000000a st_xmit_lost=0000e751, st_xmit_stop=ff01e6ff
  st_xmit_err=00002463, st_xmit_received=00001420, st_rcv_valid=0000015b
  st_rcv_ackonly=0001e893, st_rcv_igonore=0001d4bd, st_rcv_lose=000001de
  st_rcv_ov=000006ed,st_rcv_ov=00003ca2
  st_rcv_stop=00002ef0, st_rcv_go=00000e27
{2} 0 send=9171 recv = 119768
{2} 1 send=9232 recv = 12015
{2} 2 send=0 recv = 0
{2} 0 send=9171 recv = 119768
{2} 1 send=9232 recv = 12015
{2} 2 send=0 recv = 0
teofarm4( 2) burst: pmGetSendBuffer: Connection timed out(110)
{0} 0 send=0 recv = 0
{0} 1 send=120590 recv = 12475
{0} 2 send=120256 recv = 9053
{1} 0 send=12475 recv = 120590
{1} 1 send=0 recv = 0
{1} 2 send=12268 recv = 9232
teofarm1( 1) burst: pmGetSendBuffer: Connection timed out(110)
teoworld( 0) burst: pmGetSendBuffer: Connection timed out(110)

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

次にhost1, host2, host3で行ったのですが、 次のような結果が出ました。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
-config:file=/opt/score5.8.3/etc/pm-ethernet.conf
type=ethernet
SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16)
50 K packets. (2.931e+00 kpps)
100 K packets. (2.511e+00 kpps)
150 K packets. (2.636e+00 kpps)
200 K packets. (3.163e+00 kpps)
250 K packets. (3.234e+00 kpps)
 2 ->  1: 157917(268dd) -> 157769(26849): 2(2)
Ethernet PM context #0 information (unit 0)
 channel 0 descripter information
  rx_p=0004be75, rx_c=0004be72, rx_bp=013e8540, rx_bc=013e8480
  tx_p=00042d5f, tx_c=00042c68, tx_bp=023f0b80, tx_bc=023e9000

 channel 0 statistics information
  st_txmit=75483001, st_rexmit=04094c21, st_xmit_ctl=00021bb2
  st_xmit_ack=000268e0 st_xmit_lost=0000f944, st_xmit_stop=ff01f917
  st_xmit_err=00000000, st_xmit_received=0000009e, st_rcv_valid=00021c04
  st_rcv_ackonly=00025962, st_rcv_igonore=00034c1f, st_rcv_lose=0001cea8
  st_rcv_ov=000001f6,st_rcv_ov=000001d8
  st_rcv_stop=00000002, st_rcv_go=0000008c
{1} 0 send=137039 recv = 152981
{1} 1 send=0 recv = 0
{1} 2 send=136720 recv = 157917
{2} 0 send=157928 recv = 153276
{0} 0 send=0 recv = 0
{0} 1 send=153126 recv = 136991
{0} 2 send=153276 recv = 157928
teofarm1( 0) burst: pmGetSendBuffer: Connection timed out(110)
{2} 1 send=158040 recv = 136592
{2} 2 send=0 recv = 0
teofarm4( 2) burst: pmGetSendBuffer: Connection timed out(110)

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

そこで3のpoint-to-point testをしました。
(このpoint-to-point testには追加したhostに対しては今回はしませんでした。)
結果は
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
[root @ teoworld ~]# rpmtest teoworld ethernet -dest 2 -ping
8       0.000941856
[root @ teoworld ~]# rpmtest teofarm4 ethernet -dest 2 -ping
8       0.000955829
[root @ teoworld ~]# rpmtest teofarm1 ethernet -dest 2 -ping
8       0.000957757
[root @ teoworld ~]# rpmtest teoworld ethernet -dest 1 -ping
8       0.000931688
[root @ teoworld ~]# rpmtest teofarm4 ethernet -dest 1 -ping
8       0.000943443
[root @ teoworld ~]# rpmtest teoworld ethernet -dest 3 -ping
8       0.000942956

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
かなりスローでしたが通信しているようでした。

これ以外に古いpc-cluster(RedHat&SCore5.8)を持っているのですが、通信も速く
このような問題は持ったことがないので何がおこっているのか全く分かりません。
度々お手数ですが、アドバイスの程よろしくお願いいたします。

_________________________________________________________________
Express yourself instantly with MSN Messenger! Download today it's FREE!
http://messenger.msn.click-url.com/go/onm00200471ave/direct/01/



SCore-users-jp メーリングリストの案内