[SCore-users-jp] SCore-D テストで複数ホストを使った際に生じる問題について

Taku ITOH taku @ st.seikei.ac.jp
2006年 12月 9日 (土) 23:22:07 JST


亀山様,メーリングリストの皆様


はじめまして,成蹊大学の伊東と申します.

現在,SCore 6.0.0 を使って並列環境を整えたいと考えており,
Score DVD を使用してインストールをしたのですが,
SCore-D テストで複数ホストを使った際に問題が生じましたので,
ご助言いただければと思います.

まず,私の計算機環境は以下の通りです.

CPU: Pentium4 3.2GHz × 8 (全て Hyper-Threading on)
そのうち1台は Server 兼 Compute Host
OS:  CentOS 4.4
LAN: ethernet

現状は2通りの方法で「PC Cluster Consortium」の
「SCore Cluster System Software インストールガイド」
にしたがって,OSのインストールから行いました.

具体的には,
1回目:RPMファイルによるインストール
2回目:Easy Installation Toolによるインストール
を行いました.

1回目のRPMファイルによるインストール時に,
サーバホストの設定まで一通りインストール作業が終えることができました.
一箇所だけ,インストール途中で,気になったのは
「SCore SystemのCompute Hostへのインストール」の段階で,

# cd /opt/score.work
# ./bininstall -compute

を実行したとき,最後に

eth0 (e1000-scorepm1) cannot use PM/Ethernet.

というメッセージが出た Compute Host があったことです.
8台とも全く同じマザーボードを使い,
そのマザーボード上のオンボードの LAN を用いているにも関わらず,
上記のメッセージが出た Compute Host が合計で4台ほどありました.
( インストール途中の話ではないですが,                          )
(「can use」と出ていた Compute Host も,後ほど                  )
( # cd /opt/score.work                                          )
( # ./bininstall -compute                                       )
( を再度実行したときには,「cannot use」と出るようになりました.)

それでも,システムテストの「PM/Ethernetのテスト方法」までは
ほとんど問題はなく,書いてある通りに実行できました.

しかしながら,「SCore-D テスト手順」の段階で問題が生じました.
生じた問題は,過去ログの「2006年 9月 15日 (金) 23:37:06 JST」に
鈴木様が書いていることに酷似しています.

具体的には

$ mpc++ -o hello hello.cc
$ scrun -nodes=1 ./hello

までは問題なく実行することができるのですが,

$ scrun -nodes=4 ./hello

を実行したときに,エラーメッセージが出てうまく動きません.

$ scrun -nodes=1x2 ./hello

までは実行できることを確認しました.
しかし,2ホスト以上を使用して実行すると問題が生じます.
以下のエラーメッセージは,

$ scrun -nodes=2x1 ./hello

を実行したときのエラーメッセージです.

SCore-D 6.0.0 connected.
<1> ULT: Exception Signal (Segmentation fault)

このエラーメッセージは,

$ scrun -nodes=2x1 ./hello

を繰り返し実行していくと変わっていき,

SCore-D 6.0.0 connected.
<1> ULT:PANIC PM Error pmGetSendBuffer(dst=0,len=-65508)=22

SCore-D 6.0.0 connected.
<0> ULT: Exception Signal (Segmentation fault)
<1> ULT: Exception Signal (Segmentation fault)

SCore-D 6.0.0 connected.
<1> ULT:PANIC PM Error pmGetSendBuffer(dst=0,len=-1493762020)=22

などになります.
「len=」の後の値は様々変わりますが,全てマイナスの値になります.

その後様々試行錯誤して,メーリングリストの過去ログなどを見ながら,
色々と試してみましたが問題は解消されず,前述の
「eth0 (e1000-scorepm1) cannot use PM/Ethernet.」
のメッセージも気になりましたので,
rpmによるインストールの途中段階で何らかの問題が生じたと考え,
2回目のEasy Installation Toolによるインストールを行いました.

Easy Installation Toolによるインストールも
CentOS 4.4 をインストールするところからはじめました.
こちらも,
「RWC SCore Easy Installation Tool (EIT) Version 2 ガイド」
にしたがってインストール致しました.
現状は,8台全てにインストールをせずに,
まずは Server host にする PC に CentOS 4.4 をインストールし,
Compute host にする PC 2台に Easy Installation Tool を使った
インストールを行った段階です.
すなわち,現段階では Server PC は Compute host として動いておりません.

この段階で,システムテストの「PM/Ethernet のテスト方法」までは
ほとんど問題なく行うことができましたが,
やはり rpm によるインストール時と同様に,
「SCore-D テスト手順」の段階で複数のホストを使おうとすると問題が生じます.
すなわち,

$ scrun -nodes=2 ./hello

を実行するとエラーメッセージが出てしまいます.
エラーメッセージも rpm を使ったときと全く同様です.
上記コマンドを何度も繰り返し実行した際に
エラーメッセージが変化するのも全く同様です.
また,現れるエラーメッセージの種類も同じです.

Easy Installation Tool によってインストールした際に,
SMP の設定はしなかったため,上記のコマンドで
2ホスト使用していることになると思います.

SMP の設定をしていないため,「scrun -nodes=2x1 ./hello」は
試すことが出来ませんが,

$ scrun -nodes=1 ./hello

が動くことは確認しました.


大変申し訳ありませんが,以上のようになっている原因と対策を
ご助言いただけないでしょうか?
宜しくお願い致します.

それでは,失礼致します.


成蹊大学 理工学部 情報科学科
伊東 拓





SCore-users-jp メーリングリストの案内