[SCore-users-jp] システムテストPM/Ethernet における躓き

Shinji Sumimoto s-sumi @ flab.fujitsu.co.jp
2002年 9月 4日 (水) 21:09:29 JST


住元です。

From: "Okamoto Masafumi" <okamoto @ gsport.co.jp>
Subject: Re: [SCore-users-jp] システムテストPM/Ethernet における躓き
Date: Wed, 4 Sep 2002 21:02:07 +0900
Message-ID: <002f01c2540a$e4753d50$6e0010ac @ tommy>

okamoto> 岡本です。
okamoto> 
okamoto> Web通りにpoint-to-point試験をおこなったところ
okamoto> 
okamoto> $ ./rpmtest pcc0 ethernet -reply&
okamoto> $ ./rpmtest pcc1 ethernet -dest 0 -ping
okamoto> 8    5.86552e-05
okamoto> 
okamoto> と問題ないようでした。
okamoto> しかし、念のためもう一度と思い、
okamoto> 
okamoto> $ ./rpmtest pcc1 ethernet -reply&

バックグランドで動いているので、2度目はこれは必要ありません。
あと、バックグラウンドプロセスをkillして

 $ ./rpmtest pcc0 ethernet -sink&
 $ ./rpmtest pcc1 ethernet -dest 0 -burst 

 $ ./rpmtest pcc1 ethernet -dest 0 -burst  -len 1468

の結果はいかがでしょう?

okamoto> としたところ、
okamoto> 
okamoto> pmOpenDevice: Device or resource busy(16)
okamoto> 
okamoto> となってしまいました。
okamoto> (server上のpmtestプロセスは殺してあります)
okamoto> 
okamoto> またserverから計算ホストへのpingの速度も
okamoto> time=4.451ms 程度で
okamoto> 通常の10倍〜50倍ほどかかっているようです。 
okamoto> 
okamoto> これはどこに問題があるのでしょうか?
okamoto> 
okamoto> 
okamoto> ----- Original Message -----
okamoto> From: "Shinji Sumimoto" <s-sumi @ flab.fujitsu.co.jp>
okamoto> To: <okamoto @ gsport.co.jp>
okamoto> Cc: <score-users-jp @ pccluster.org>; <s-sumi @ flab.fujitsu.co.jp>
okamoto> Sent: Wednesday, September 04, 2002 8:19 PM
okamoto> Subject: Re: [SCore-users-jp] システムテストPM/Ethernet における躓き
okamoto> 
okamoto> 
okamoto> > 富士通研の住元です。
okamoto> >
okamoto> > こちらでもrtl8139のクラスタがあり同じパラメータで問題なく動作しています。
okamoto> >
okamoto> > PMテスト手順のpoint-to-point試験は問題なく動いているでしょうか?
okamoto> >
okamoto> >
okamoto> http://www.pccluster.org/score/dist/score/html-j/ja/installation/pm-testethe
okamoto> rnet.html
okamoto> >
okamoto> > From: "Okamoto Masafumi" <okamoto @ gsport.co.jp>
okamoto> > Subject: Re: [SCore-users-jp] システムテストPM/Ethernet における躓き
okamoto> > Date: Wed, 4 Sep 2002 19:37:17 +0900
okamoto> > Message-ID: <001101c253ff$1adc0d30$6e0010ac @ tommy>
okamoto> >
okamoto> > okamoto> ジースポート 岡本です。
okamoto> > okamoto>
okamoto> > okamoto> pm-ethernet.confをご指摘のように直してscstestを実行しました。
okamoto> > okamoto> しかし、やはり、うまくいきません。
okamoto> > okamoto> 具体的にはやはり    burst: pmGetSendBuffer: Connetction timed out
okamoto> が起き
okamoto> > okamoto> てしまいます。
okamoto> > okamoto> 不思議なのですが、count が奇数だと比較的大きい値でも成功するよう
okamoto> です。
okamoto> > okamoto> 例えば、-count 101 では成功しますが、-count 100や、 -count 8 で
okamoto> はtimeoutに
okamoto> > okamoto> なってしまいます。
okamoto> > okamoto> また、timeoutした場合、その後計算ホストが無反応になってしまう
okamoto> (pingも受け付
okamoto> > okamoto> けない)状態になってしまうという
okamoto> > okamoto> 現象がよく起きます。
okamoto> > okamoto> timeoutしなくてもcountの値を大きくして試していると同様の症状が起
okamoto> きることがあ
okamoto> > okamoto> ります。
okamoto> >
okamoto> > この応答しないと言うのは、カーネル自体が固まってコンソールからの操作も
okamoto> > 不能ということでしょうか? panic messageなどは出ていませんでしょうか?
okamoto> >
okamoto> > 同じパラメータで不安定だとすると、ハード回りでしょうか?
okamoto> >
okamoto> > システム上で以下の情報を教えてください。
okamoto> >
okamoto> > lspci の実行結果、
okamoto> >
okamoto> > cat /proc/interrupt の実行結果
okamoto> >
okamoto> > okamoto>
okamoto> > okamoto> 何か改善案をいただけると幸いです。
okamoto> > okamoto>
okamoto> > okamoto> > okamoto> > $ scstest ethernet -count 10 -burst
okamoto> > okamoto> > okamoto> >
okamoto> > okamoto> > okamoto> > $ scstest ethernet -count 1000 -burst
okamoto> > okamoto> > okamoto> >
okamoto> > okamoto> > okamoto> > 以上が動く(最低、count 1)ようなら通信は出来ていま
okamoto> す。
okamoto> > okamoto> > okamoto>
okamoto> > okamoto> > okamoto> count 1 なら問題なく動きました。
okamoto> > okamoto> > okamoto> ただ、count 10にするとtimeoutしてしまいました。
okamoto> > okamoto> > okamoto>
okamoto> > okamoto> > okamoto> backoff 2400 にを追加して試したところ、count 10では問
okamoto> 題なかったの
okamoto> > okamoto> で
okamoto> > okamoto> > okamoto> 再び、 $ scstest -network ethernet としたところ30分ほ
okamoto> ど経っても
okamoto> > okamoto> 処理が終わら
okamoto> > okamoto> > okamoto> ないようです
okamoto> > okamoto> > okamoto> (50 K messages. が表示されません、pingには応答します)
okamoto> > okamoto> > okamoto>
okamoto> > okamoto> > okamoto> これはネットワークが極端に遅いのだと思われますが
okamoto> > okamoto> > okamoto> その原因が今ひとつはっきりしません。
okamoto> > okamoto> > okamoto> もし、対策がありましたらご教授願います。
okamoto> > okamoto> > okamoto>
okamoto> > okamoto> > okamoto> ハブはスイッチングハブ(Planex; FX-16NV)を使っており
okamoto> ます。
okamoto> > okamoto> > okamoto> NICはRealtek RTL 8139です。
okamoto> > okamoto> >
okamoto> > okamoto> > RTL8139は送受信ディスクリプタが4個しかないので、maxnsend 8 で
okamoto> は大きす
okamoto> > okamoto> > ぎます。以下のパラメータで試して頂けないでしょうか?
okamoto> > okamoto> >
okamoto> > okamoto> > maxnsend 4
okamoto> > okamoto> > ackskip 2
okamoto> > okamoto> > backoff 4800
okamoto> > okamoto> >
okamoto> > okamoto> >
okamoto> > okamoto> > ------
okamoto> > okamoto> > Shinji Sumimoto, Fujitsu Labs
okamoto> > okamoto> > _______________________________________________
okamoto> > okamoto> > SCore-users-jp mailing list
okamoto> > okamoto> > SCore-users-jp @ pccluster.org
okamoto> > okamoto> > http://www.pccluster.org/mailman/listinfo/score-users-jp
okamoto> > okamoto> >
okamoto> > okamoto>
okamoto> > okamoto> _______________________________________________
okamoto> > okamoto> SCore-users-jp mailing list
okamoto> > okamoto> SCore-users-jp @ pccluster.org
okamoto> > okamoto> http://www.pccluster.org/mailman/listinfo/score-users-jp
okamoto> > okamoto>
okamoto> > okamoto>
okamoto> > ------
okamoto> > Shinji Sumimoto, Fujitsu Labs
okamoto> > _______________________________________________
okamoto> > SCore-users-jp mailing list
okamoto> > SCore-users-jp @ pccluster.org
okamoto> > http://www.pccluster.org/mailman/listinfo/score-users-jp
okamoto> >
okamoto> 
okamoto> _______________________________________________
okamoto> SCore-users-jp mailing list
okamoto> SCore-users-jp @ pccluster.org
okamoto> http://www.pccluster.org/mailman/listinfo/score-users-jp
okamoto> 
------
Shinji Sumimoto, Fujitsu Labs



SCore-users-jp メーリングリストの案内