[SCore-users-jp] SCore5.0でのdemoプロの実行について

iwa @ strad.ssg.fujitsu.com iwa @ strad.ssg.fujitsu.com
2002年 3月 25日 (月) 13:21:16 JST


ML一同様

いつもお世話になっております。

富士通の岩谷です。

先日のシンポジウムでは大変お世話になりありがとうございました。
重要な情報が得られて大変満足しております。

さて早速、先日頂いたSCoreを顧客先に導入しております。インストール
自体は問題なく終わったのですが、テストを行っている最中に以下の現象
が発生しました。原因と対処が判れば教えてください。

現在構築の環境ですが、

[サーバホスト]
CPU:Pentimu� Xeon 900MHz ×1
チップセット:CNB20HE
メインメモリ:1GB RDRAM(PC800、ECC対応)

[計算ホスト]
CPU:Xeon processor 2GHz ×2
チップセット:Intel(R) 860 システムバス:400MHz
メインメモリ:4GB RDRAM(PC800、ECC対応)

OSはRHL7.2でSCore5.0を使っています。
また、各計算ホスト間はGigaEtherで接続しています。
サーバホストと計算ホスト間はEhterで接続しています。

起っている現象は以下の通りです。

[現象]
★SCoreのデモプログラムmandelを動作させるとハングする

scrun /opt/score/demo/bin/mandel を行うと、以下の状態になります。

[サーバホスト]
・Connected SCore-D 5.0.0が表示されるだけで、mandelのウィンドが現れない
・mandelを起動した端末ウィンドでCtrl-Cを入力しても、mandelが終了しない
 (Ctrl-\では終了する)
・Ctrl-\で終了させた後、Ctrl-Dでscoutを終了しようとしても終了しない
 (この状態で、更にCtrl-\を入力すると終了する)

[計算ホスト]
・キーボード入力を一切受け付けない (Ctrl-Alt-Delもダメ)
・rlogin、rsh等も受け付けない (pingには反応する)

このため、計算ノードの電源を切るしか対処できなくなります。動作中に電源断
を行うため、/varが被害を受けます。ただし、この被害はfsckにより修復可能で
す。

#これは/var/scoredに書き込みを行っているからと思われます。/var/scoredを
#独立したパーティションにしたほうが良いかもしれません

計算ノードを立ち上げ直せば、再びSCoreプログラムを走らせられるようになり
ます。(管理ノードは、デーモンの再起動やリブートは不要)

mandelのハングは、SCoreの通信にGigaLAN、100M Etherのいずれを使っても発生
します。SCoreの構成を変更して、計算ノードを1 CPUとしてshmemを使わないよ
うにすると、mandelのハングは発生しなくなります。このため、shmemまわりに
障害があるのではないかと思われます。

なお、pmandelでは、このハングは発生しません。

勿論、インストール時にはshmemを指定しています。

よろしくお願いします。

********************************************************
富士通株式会社  システム本部)CSEC)R&Dソリューション部
岩谷正樹/Masaki Iwatani
TEL:043-299-3242 (内)7055-2875
PHS:070-6119-4267
FAX:043-299-3010 (内)7055-5511
E-mail to:iwamasa @ jp.fujitsu.com
*********************************************************



SCore-users-jp メーリングリストの案内