[SCore-users-jp] PM/Ethernetテストがうまくいきません

Takahiro Yamamoto he9t-ymmt @ asahi-net.or.jp
2002年 8月 27日 (火) 22:45:03 JST


山本です。
住元さん、菅野さん、アドバイスありがとうございました。
そして、連絡が遅れたことをお詫びいたします。

あれから、nisdomain と domainname が同じであることに気づき、
nisdomain を score.info に変更して、SCore5.0.1をインストールしました。
EITを使ってFDを作成し、FDを計算ノードにセットしてインストールすること
には問題ありませんでした。
rshも普通に起動することができました。
scoutで起動することもできます。

しかし、scstestは相変わらず上手くいきません。

住元さんから教えていただいた、rcstestでは

-----------------------------------------------------
[root @ beoserver root]# rcstest beo1 ethernet -v
starting master 0 : pe=4
starting slave:  2 3 1.
testing*.*.*.*.*.*.beo1( 0) Signal: Interrupted system call(4)
beo2( 1) Signal: Interrupted system call(4)
beo4( 3) Signal: Interrupted system call(4)
beo3( 2) burst: pmGetSendBuffer: Connection timed out(110)
-----------------------------------------------------

と表示されます。「testing*.*.*.*.*.*.」のところで30分くらいかかっていたので
強制終了させました。
このあとで、SCoreを起動させようとすると、scoutの起動で止まり、
pingも接続できなくなってしまいます。

どうやら、林さんの「性能差のある機種混在環境での運用」と似た問題
が起きてるようです。

私の場合、scout起動してからのプログラムは動くのですが、最初の一回以降はどん
どん遅くなってしまいます。
以下に示すのは、プログラムを動かす前の ping と、動かした後の ping です。

------------------------------------------------------
[root @ beoserver root]# ping -c 3 192.168.0.151
PING 192.168.0.151 (192.168.0.151) from 192.168.0.150 : 56(84) bytes of
data.
Warning: time of day goes back, taking countermeasures.
64 bytes from 192.168.0.151: icmp_seq=0 ttl=255 time=721 usec
64 bytes from 192.168.0.151: icmp_seq=1 ttl=255 time=235 usec
64 bytes from 192.168.0.151: icmp_seq=2 ttl=255 time=150 usec

--- 192.168.0.151 ping statistics ---
3 packets transmitted, 3 packets received, 0% packet loss
round-trip min/avg/max/mdev = 0.150/0.368/0.721/0.252 ms
------------------------------------------------------

------------------------------------------------------
[root @ beoserver deploy]# ping -c 3 192.168.0.151
PING 192.168.0.151 (192.168.0.151) from 192.168.0.150 : 56(84) bytes of
data.
64 bytes from 192.168.0.151: icmp_seq=0 ttl=255 time=6.881 sec
64 bytes from 192.168.0.151: icmp_seq=1 ttl=255 time=6.129 sec
64 bytes from 192.168.0.151: icmp_seq=2 ttl=255 time=5.469 sec

--- 192.168.0.151 ping statistics ---
3 packets transmitted, 3 packets received, 0% packet loss
round-trip min/avg/max/mdev = 5469.960/6160.417/6881.364/576.613 ms
---------------------------------------------------------------

rpmtest や sestest を行ったあとでは、pingができなくなりますので、
計算サーバを再起動して、もう一度、scoutを起動させている状態です。

『 scout起動がうまくいくのは、最初の1回だけが多いです。
 上記の状態で exit と打って SCOREシェルを抜けてから、再度 scout -g test1
 と打つと、
 SCOUT:Spawning <サーバhost名>
 と表示されたままになり、SCOREシェルを起動できないことがあります。 』
というのは、私と同じ状態です。

林さんへの解答からいくつか気になるところをあげてみますと、

>3 台の計算機は switching hub でつながっていますか?
こちらも switching hub を使っています。
ファストイーサネットを使っているのですが、
ifconfig の eth0 で下記のように表示されるので、100Mではないのかも知れませ
ん。
---------------------------------------------------
RX bytes:14218778 (13.5 Mb)  TX bytes:13188101 (12.5 Mb)
---------------------------------------------------

>dmesg で見てエラーがでているということはありませんでしょうか?
これと、netstat -i のエラーチェックは、明日学校でやってみます。

>NFSマウントやrlogin、rshも正常に動作します。
rshは正常に動作していますが、NFSマウントもやってみることにします。

>きちんと100BTで動いていないからではないでしょうか? スイッチやNICの状態を確
認することはできますでしょうか?
こちらも明日、確認してみることにします。

あと、個人的に気になるところとして、

・サーバホストのCPUがPentiumII、計算ホストのCPUがPentiumIIIであること。
・容量不足でRedHatLinux7.2のフルインストールが出来なかったため、関係のありそ
うなものだけインストールした。

ことが挙げられます。

とりあえず、上記のことをひととおり調べてみて、あらためて報告したいと思ってい
ます。
ありがとうございました。

--------------------------------------------------------
山本 貴大 ( yamamoto @ suuri.ma.is.saga-u.ac.jp )

佐賀大学理工学部知能情報システム工学科 
--------------------------------------------------------








SCore-users-jp メーリングリストの案内