[SCore-users-jp] システムテストPM/Ethernet における躓き

Okamoto Masafumi okamoto @ gsport.co.jp
2002年 9月 4日 (水) 21:02:07 JST


岡本です。

Web通りにpoint-to-point試験をおこなったところ

$ ./rpmtest pcc0 ethernet -reply&
$ ./rpmtest pcc1 ethernet -dest 0 -ping
8    5.86552e-05

と問題ないようでした。
しかし、念のためもう一度と思い、

$ ./rpmtest pcc1 ethernet -reply&

としたところ、

pmOpenDevice: Device or resource busy(16)

となってしまいました。
(server上のpmtestプロセスは殺してあります)

またserverから計算ホストへのpingの速度も
time=4.451ms 程度で
通常の10倍〜50倍ほどかかっているようです。 

これはどこに問題があるのでしょうか?


----- Original Message -----
From: "Shinji Sumimoto" <s-sumi @ flab.fujitsu.co.jp>
To: <okamoto @ gsport.co.jp>
Cc: <score-users-jp @ pccluster.org>; <s-sumi @ flab.fujitsu.co.jp>
Sent: Wednesday, September 04, 2002 8:19 PM
Subject: Re: [SCore-users-jp] システムテストPM/Ethernet における躓き


> 富士通研の住元です。
>
> こちらでもrtl8139のクラスタがあり同じパラメータで問題なく動作しています。
>
> PMテスト手順のpoint-to-point試験は問題なく動いているでしょうか?
>
>
http://www.pccluster.org/score/dist/score/html-j/ja/installation/pm-testethe
rnet.html
>
> From: "Okamoto Masafumi" <okamoto @ gsport.co.jp>
> Subject: Re: [SCore-users-jp] システムテストPM/Ethernet における躓き
> Date: Wed, 4 Sep 2002 19:37:17 +0900
> Message-ID: <001101c253ff$1adc0d30$6e0010ac @ tommy>
>
> okamoto> ジースポート 岡本です。
> okamoto>
> okamoto> pm-ethernet.confをご指摘のように直してscstestを実行しました。
> okamoto> しかし、やはり、うまくいきません。
> okamoto> 具体的にはやはり    burst: pmGetSendBuffer: Connetction timed out
が起き
> okamoto> てしまいます。
> okamoto> 不思議なのですが、count が奇数だと比較的大きい値でも成功するよう
です。
> okamoto> 例えば、-count 101 では成功しますが、-count 100や、 -count 8 で
はtimeoutに
> okamoto> なってしまいます。
> okamoto> また、timeoutした場合、その後計算ホストが無反応になってしまう
(pingも受け付
> okamoto> けない)状態になってしまうという
> okamoto> 現象がよく起きます。
> okamoto> timeoutしなくてもcountの値を大きくして試していると同様の症状が起
きることがあ
> okamoto> ります。
>
> この応答しないと言うのは、カーネル自体が固まってコンソールからの操作も
> 不能ということでしょうか? panic messageなどは出ていませんでしょうか?
>
> 同じパラメータで不安定だとすると、ハード回りでしょうか?
>
> システム上で以下の情報を教えてください。
>
> lspci の実行結果、
>
> cat /proc/interrupt の実行結果
>
> okamoto>
> okamoto> 何か改善案をいただけると幸いです。
> okamoto>
> okamoto> > okamoto> > $ scstest ethernet -count 10 -burst
> okamoto> > okamoto> >
> okamoto> > okamoto> > $ scstest ethernet -count 1000 -burst
> okamoto> > okamoto> >
> okamoto> > okamoto> > 以上が動く(最低、count 1)ようなら通信は出来ていま
す。
> okamoto> > okamoto>
> okamoto> > okamoto> count 1 なら問題なく動きました。
> okamoto> > okamoto> ただ、count 10にするとtimeoutしてしまいました。
> okamoto> > okamoto>
> okamoto> > okamoto> backoff 2400 にを追加して試したところ、count 10では問
題なかったの
> okamoto> で
> okamoto> > okamoto> 再び、 $ scstest -network ethernet としたところ30分ほ
ど経っても
> okamoto> 処理が終わら
> okamoto> > okamoto> ないようです
> okamoto> > okamoto> (50 K messages. が表示されません、pingには応答します)
> okamoto> > okamoto>
> okamoto> > okamoto> これはネットワークが極端に遅いのだと思われますが
> okamoto> > okamoto> その原因が今ひとつはっきりしません。
> okamoto> > okamoto> もし、対策がありましたらご教授願います。
> okamoto> > okamoto>
> okamoto> > okamoto> ハブはスイッチングハブ(Planex; FX-16NV)を使っており
ます。
> okamoto> > okamoto> NICはRealtek RTL 8139です。
> okamoto> >
> okamoto> > RTL8139は送受信ディスクリプタが4個しかないので、maxnsend 8 で
は大きす
> okamoto> > ぎます。以下のパラメータで試して頂けないでしょうか?
> okamoto> >
> okamoto> > maxnsend 4
> okamoto> > ackskip 2
> okamoto> > backoff 4800
> okamoto> >
> okamoto> >
> okamoto> > ------
> okamoto> > Shinji Sumimoto, Fujitsu Labs
> okamoto> > _______________________________________________
> okamoto> > SCore-users-jp mailing list
> okamoto> > SCore-users-jp @ pccluster.org
> okamoto> > http://www.pccluster.org/mailman/listinfo/score-users-jp
> okamoto> >
> okamoto>
> okamoto> _______________________________________________
> okamoto> SCore-users-jp mailing list
> okamoto> SCore-users-jp @ pccluster.org
> okamoto> http://www.pccluster.org/mailman/listinfo/score-users-jp
> okamoto>
> okamoto>
> ------
> Shinji Sumimoto, Fujitsu Labs
> _______________________________________________
> SCore-users-jp mailing list
> SCore-users-jp @ pccluster.org
> http://www.pccluster.org/mailman/listinfo/score-users-jp
>




SCore-users-jp メーリングリストの案内