[SCore-users-jp] SCORE5.0.1における異機種混在について

kameyama @ pccluster.org kameyama @ pccluster.org
2002年 8月 22日 (木) 21:32:25 JST


亀山です.

In article <003301c249d1$f0984a20$c500a8c0 @ 0292hayashi> "林 敬三" <k-hayashi at sogo-eng.co.jp> wrotes:
> PCクラスタシステムにおいて、異機種混在環境では、どのような問題が
> 出るかを知りたいと思っています。

SCore で "異機種混在環境" というと, たとえば,
ia32 と alpha との混在とか redhat と SuSE の混在とかを差します.

> 以前、亀山様には、EITでインストールすると、すべてのホストのCPUを
> 同一と見なす、というアドバイスをいただきました。

これはどちらかというと EIT の都合です.
最初 speed を bogoMIPS で設定したら全部違う speed になってしまって
細かい sub cluster に分かれてしまったためだと思いました.

> これは、PCクラスタを構成するホストの性能差が大きかった場合、
> クラスタが正常に動作しないということなのでしょうか?

基本的には動くはずです.

> 当社試行では、
> HP製パソコン:Celeron950MHz、メモリ320MB・・・サーバ兼計算ホスト
> HP製パソコン:Celeron1.1GHz、メモリ256MB ・・・計算ホスト
> の2台構成では、クラスタが正常に機能しました。
> つぎに、以下を追加して3台構成にしました。
> NEC製ノートPC:Celeron400MHz、メモリ64MB ・・・計算ホスト
> 
> 3台構成だと、プログラムが実行できなくなります。
> まず、SCOREシェル環境(scout)は立ち上がりますが、まれに、
> SCOUT: Spawning on <サーバホスト名>
> というメッセージが表示され、SCOREシェルを起動できないことがあります。
> うまく起動できたときにプログラムを投入すると、普通は表示される
> SCORE5.0.1 Connect
> 等のメッセージが何も表示されず、無反応のままとなります。

scout が動かなくなることがあるというのがそもそもおかしいですね.
むしろ kernel や network が正常に動いているかどうかが気になります.
(memory 64 MB では大きなプログラムを動かすのはきついかも知れませんけど...)

まずは基本的なところを確認します.
以下をチェックしてみてください.
1. 3 台の計算機は switching hub でつながっていますか?
   単なる hun だと PM/Ethernet は動かないかも知れません.
   (でも, scout ぐらいは動いても良いような...)
2. 3 台の計算機は同じ速度でつながっているでしょうか?
   note PC だけ 10 Base-T で他は 100 Base-T でつながっている,
   などということはないでしょうか?
3. SCore 以外の動作 (rlogin とか NFS アクセスとか) は問題無くできるでしょうか?
4. 3 台の計算機のは正常に動いているでしょうか?
   dmesg で見てエラーがでているということはありませんでしょうか?
   netstat -i で見て, エラーがたくさんでているということはないでしょうか?

                       from Kameyama Toyohisa



SCore-users-jp メーリングリストの案内