SCore FAQ


このFAQはメーリングリスト上でのQAをまとめたものです。

分類

  1. Hostname(NIS, DNS, /etc/hostsなど)の設定
  2. SCoreのインストール
  3. PM
  4. ソースからのコンパイル
  5. SCore-D
  6. OMNI
  7. MPICH
  8. PBS
  9. 性能
  10. その他


分類: Hostname(NIS, DNS, /etc/hostsなど)の設定セッテイ  


質問
回答
1.
ypcat hosts の結果 ケッカと /etc/hostsファイルの内容ナイヨウコトなっています。 /etc/hosts の内容 ナイヨウを NIS に反映 ハンエイさせるためには
      # cd /var/yp
      # make
      
実行ジッコウしてください。

※ ypcat でオナギョウ複数出現フクスウシュツゲンするのは bug ではありません。
      % ypcat hosts | sort -u
      
で /etc/hosts ファイルの内容ナイヨウ 一致イッチ すれば問題モンダイ ありません。
2.
システムテスト「sceptic -v -g pcc」に失敗シッパイする。また、client から server に telnet できない。
サーバーでNISを使ツカっている場合バアイは、/etc/hostsに server 名で localhost が書かれてしまっていないか(「127.0.0.1 server.domain server」)確認カクニンしてください。かれている場合バアイは、このギョウ削除サクジョし、アラたにタダしいIPアドレスをもつギョウ追加ツイカしてください。ツギに、NISデータベースを更新コウシンするために、「# cd /var/yp;make」を実行ジッコウしてください。
3.
msgbserv が立ち上がらない。
NIS, DNS, /etc/hostsの設定が正しいか確認してください。
4.
scout の起動に失敗する。
SCore5.0.0以前イゼンのバージョンを使用シヨウしている場合バアイには、/etc/hostsでhostname に FQDN と単純なホスト名の両方リョウホウをつけてください。SCore 5.0.1 では対応スミです。
5.
scrun で1台だけ No self host error がでる。
エラーがるホストの /etc/hosts がタダしく設定セッテイされているか確認カクニンしてください。



分類: SCoreのインストール


質問
回答
1.
ワタシ のマシンにはFDD装置ソウチ がついていません。
SCoreはFDD装置ソウチ なしでインストールできますか?
SCoreのCDでCDブートできますか?
SCoreのクライアントブートイメージをったCD-Rを作成サクセイすることで、 SCoreをインストールすることができます。
SCoreクライアントのブートイメージは、/opt/score/ndboot/images/ の下にあります。

以下イカ操作ソウサで ブートCD-ROMを作成サクセイ することができます。
      # mkisofs -b /opt/score/ndboot/images/100Mbps_Ethernet.img -c boot.catalog
-o /tmp/score-boot.iso -J -r -T
      
cdrecord または xcdroast を使用シヨウ してCD-R作成サクセイ してください。
2.
EITはeth2を使用シヨウ してCompute Hostのセットアップができますか? EITはeth0でしか動作 ドウサしません。
eth1やeth2を使用シヨウしたい場合バアイ、eth0を使用シヨウしてインストールしたアトで、eth0をeth2に変更ヘンコウ してください。
3.
EIT起動キドウに、parameter(domainName) が設定できなくて止まる。
NIS設定セッテイ確認カクニンしてください。NISサーバーで、以下イカのコマンドを実行ジッコウしてFQDNホストメイカエすか確認カクニンしてください。「% ypmatch your_servers_hostname | awk '{print $2}'」
4.
EITでインストールナカ、Cannot resolve the host comp0.pccluster.org IP addressによりインストールができない。

NIS, DNS, /etc/hostsの設定セッテイタダしいか確認カクニンしてください。
5.
EITでインストールチュウ、Cannot resolve the server's hostname from IP addressによりインストールができない。
NIS, DNS, /etc/hostsの設定が正しいか確認してください。
6.
boot disk を作るときにgrab failed: another application has grabエラーがでた。
他のアプリケーションがFloppy デバイスを使用している可能性があります。
7.
ブートフロッピーを作成 サクセイし、 Easy Installation Tool(EIT)でインストールを実施ジッシしたとき、 "/opt/score/setup//RedHat/instimage/compconf/.conf"ディレクトリが存在ソンザイしないというエラーメッセージが表示 ヒョウジされました。 Server Hostの/optパーティションの領域リョウイキ をチェックしてください。
      % df /opt
      
/opt/scoreはヤク 500MB必要ヒツヨウ とします。
8.
SCore5.0.0で、計算ケイサンホストのインストール、anaconda の起動に失敗する。
SCore 5.0.1 で対応スミです。
9.
e1000 で EIT が動かない。
boot floppy が対応していません。SCore 5.2.0以降ではe1000に対応しています。 ネットワークブートディスク選択画面で 1Gbps_Ethernet を選んでください。
10.
EITでインストールするときに、以下イカのメッセージがてファイル転送テンソウまってしまいます。

The file
mnt/source2/RedHat/RPMS/
cannot be opened.
This is due to a missing file, a bad package, or bad media.
Press to try again.
2つの原因が考えられます。

  (1) CD-ROMからreadできていない。

    回避策として、CD-ROMイメージをディスクにコピーし、 そこをmount point にして実行してみてください。

  (2) NFSの動作異常。

    この場合の仮対処方法は以下の通りです。

    1)Alt + F2を押すとshell画面に切り替わります。
    2)ここで、
      # cd /mnt/cdrom/RedHat/RPMS/
      # ls -l パッケージ名
    3)その後、Server Host上で、エラーメッセージダイアログのOKボタンをクリック。
    4)"ls: パッケージ名: State NFS file handle"のようなメッセージが出た場合、lsの結果が出てくるまで何回か試します。
11.
root file system が大きくて boot できない。EIT で /boot などのパーティションを切れない。
rootのパーティションを8GB以下イカにしてください。
SCore 5.2.0 以降では /boot パーティションを作成できます。
12.
EITでインストールした場合 バアイ環境変数 カンキョウヘンスウ設定セッテイ必要ヒツヨウですか? Server Hostに login した時点ジテン設定 セッテイされるので必要ヒツヨウはありません。
13.
「SCore Cluster System Software インストールガイド」の「RPMファイルによるインストール」における注意点チュウイテンオシえてほしい。 以下イカの通トオりです。

3. Compute Hostの設定セッテイ
  - SCore Linux Kernel のインストレーション
    ・/etc/lilo.confのカーネルイメージメイ以下イカタダしいです。
      *-2.4.18-3SCOREsmp
      *-2.4.18-3SCORE
  - SCoreシステムインストール
    ・./bininstall はツヅけて2回実行カイジッコウしないとスベてのファイルがコピーされない場合バアイがあります。
4. サーバホストの設定セッテイ
  ・scorehosts.dbのサンプルファイルの位置イチ以下イカトオりです。
    doc/html/installation/ -> doc/html/en/installation/
  ・msgbserv 始動後シドウゴ /var/log/msgbserv.out ファイルは存在ソンザイしません。
  ・PM-IIデバイスの設定セッテイ以下セッテイトオりに実施ジッシします。
    # /opt/score/deploy/mkpmethernetconf -speed 100 pm-udp.conf ->/opt/score/deploy/mkpmethernetconf -speed 100 -g pcc
- その
  ・Server Host を Compute Host として利用リヨウするには以下イカトオ設定セッテイします。
    * Server Host ジョウで ./bininstall -compute を実施ジッシ
    * Compute Host の設定セッテイ同様ドウヨウ作業サギョウ実施ジッシ



分類: PM通信機構


質問
回答
1.
SCore がサポートしている Gigabit ethernet は?
PM/EthernetはEthernet NIC,Switchに依存イゾンしませんが、性能セイノウはNIC H/Wに依存イゾンします。推奨スイショウリストを参照サンショウしてください。
2.
Gigabit EthernetでNetwork Trunkingは可能カノウですか? Gigabit EthernetでNetwork Trunkingを使用シヨウするならば、PCI DMA バンドハバチイさいことから 高帯域幅コウタイイキハバ達成タッセイ するために 66MHz 64bit PCIでJUMBO FRAMEをサポートした Ethernet Switchesや NICを使用シヨウすべきです。
PCI-X、マタは、 多数タスウの PCIバスで、パフォーマンスは向上 コウジョウされるかもしれません。

"SCore Cluster System Softwareの概要ガイヨウ" の "PM 通信性能ツウシンセイノウ" を参照サンショウしてください。

注意チュウイ:
JUMBO FRAMEとNetwork Trunkingをモチ いてSysKonnect 9843 NICs, 3Com 996B-T, Broadcom 5701 NICs をテストしました。 また、Intel PRO100T, PRO1000XTでの動作確認 ドウサカクニンはしましたが、JUMBO FRAMEのテストはオコナっていません。
3.
myrinet をスイッチなしで直接つないだときの config file の書き方
pm-myrinet.confを以下イカのように設定セッテイしてください。
0  node0.pccluster.org
カイギョウ1  node1.pccluster.org
4.
etherpmctl で resource busy
指定したデバイスは既に使われています。引数を確認してください。
5.
rpmtest(scstest, rcstest)などでPM/Ethernetの通信が失敗します。
以下の原因が考えられます。
  1. MACアドレスの間違いにより通信不能:MACアドレスを確認してください。
  2. スイッチがPM/Ethernetのフレームタイプ(X.25)を通さない設定になっています:スイッチの設定を確認してください。
  3. デバイスドライバやNICハードウェアが不安定:動作確認されているハードウェアかどうか確認してください。
6.
PMテストで、scstest などがうまくいかない。
IRQ が重複していないか確認カクニンしてください。IRQを自動ジドウ設定セッテイにしている場合バアイには、重複チョウフクしないようにBIOSでマニュアル設定セッテイしてください。
7.
mandel を ethernet and SMP で動かすと crash する。
SCore5.0.0のPM/Ethernet の bugです。SCore5.0.1で対応タイオウスミです。
8.
SK-9D21 で SCore を動かすと crash する。
NICのデバイスドライバの問題です。安定したデバイスドライバを利用してください。SysKonnect SK-984xとIntel pro1000/Tがタカいバンドハバヒクいレイテンシを実現ジツゲンします。
9.
Myrinet2000を使用 シヨウしてジョブを実行 ジッコウしたところ、以下イカのようなエラーメッセージが表示 ヒョウジされました。 (DLPOLY chemistry code):

SCore-D 4.0 connected.
<3> ULT:SYSCALLPANIC(../recv.c:85) PM Error (pmReceive) (32:Broken pipe)
<5> SCore-D:WARNING Some job(s) will not stop (4 more retry)
<5> SCore-D:WARNING Force to stop JOB 1
         :
<5> SCore-D:WARNING Failed to stop job(s).
<5> SCore-D:WARNING Force to kill JOB 1
このエラーは、パケット受信中ジュシンチュウにタイムアウトが発生ハッセイし、Myrinet NIC がリセットされたことを意味イミ します。
もしこのエラーがまた発生ハッセイ した場合バアイ は、ハードウェアに問題 モンダイがあるかもしれません。
エラーが発生ハッセイしなかった場合バアイは、にする 必要ヒツヨウはありません。
10.
ethernet trunking の性能がでない。NIC1マイと2マイオナ程度テイド
scorehosts.db の設定がタダしいか確認カクニンしてください。



分類: ソースからのコンパイル


質問
回答
1.
SCoreのMPICHにGNU以外イガイのコンパイラを使用シヨウすることができますか? 使用シヨウできます。
site ファイルを編集ヘンシュウ したあと mpiのソースだけを展開テンカイして
     # cd /opt/score/score-src/runtime/mpi
     # smake
     # smake install
     
でインストールできます。
2.
SCoreソースcompile のとき make が error になる。
SCore5.0.0のバグです。SCore5.0.1でfixしました。
3.
mpi のコンパイルの失敗
pgf90のコンパイラのパス/opt/pgi/linux86/bin/pgf90を確認カクニンしてください。



分類: SCore-D


質問
回答
1.
MPICHのサンプルプログラムをSCoreのmpiccでコンパイル、 実行ジッコウしたトキ以下イカのエラーメッセージが 出力シュツリョクされて、 システムがハングしました。

<8> ULT: Exception Signal (11)
scout環境下 カンキョウカ以下 イカのコマンドを実行 ジッコウしてください。
      % scout ls -l /opt/score/deploy/bin.i386-redhat7-linux2_4/scored*
      
もし、スベてのバイナリが参照サンショウ できればOKですが、できなければSCore-Dバイナリをコピーする必要ヒツヨウがあります。
2.
howtouse/xwindow.html のように, 環境変数 DISPLAY を適切に設定してくれない
環境カンキョウ変数ヘンスウDISPLAYは自動ジドウでは設定セッテイできません。ドキュメントが古くアヤマった記載キサイでした。
3.
SMPクラスタシステムで、scrunでプログラムを起動すると以下のエラーが出る。

$ scrun ./a.out
<0> SCore-D:WARNING Number of 'smp' (2) is reset to one since there is no SHMEM device.
<1> SCore-D:WARNING Number of 'smp' (2) is reset to one since there is no SHMEM device.
SCore-D 5.0.1 connected.
...

このエラーは計算ノードにはCPUが2つ搭載されているが、shmemデバイスがないので、CPUを1つとして扱うと言うメッセージです。回避するには /opt/score/etc/scorehosts.dbの内容を確認してください。
  1. shmem0, shmem1デバイスが登録されているか?
    shmem0 type=shmem -node=0
    shmem1 type=shmem -node=1
  2. 各ノードのnetworkエントリにshmem0,shmem1が登録されているか?

    node0 network=ethernet,shmem0,shmem1 group=pcc
訂正したら、以下のコマンドを実行してください。
# /etc/rc.d/init.d/scoreboard reload
4.
SCoreのデモプログラムやXに対応したアプリケーション実行時に以下のエラーが出る。

% scrun -nodes=2 /opt/score/demo/bin/pmandel
Could not open display
Failed to connect to comp1.pcc.org:0 from comp1.pcc.org
Failed to connect to comp1.pcc.org:0 from comp2.pcc.org
One or more processes could not connect to the display.
Exiting
%

DISPLAY変数が設定されていないか、もしくは、他のノードからの表示の許可が出ていません。 以下のコマンドを実行した後、再度プログラムを実行してください。
% export DISPLAY=server.pcc.org:0.0
% xhost +
5.
mpirunコマンドを使用 シヨウしてアプリケーションを実行ジッコウしました。("&"をつけて)
ツギアタしいジョブを 実行ジッコウしたところ、 "SCOUT busy"というエラーメッセージが表示 ヒョウジされました。
マルチユーザ環境 カンキョウ使用 シヨウしてください。
scored は root で実行ジッコウ しなくてはいけません。
scout環境外カンキョウガイから、mpirunに -score scored= オプションをつけて実行ジッコウしてください。

SCore-Dの起動方法キドウホウホウは "SCore Cluster System Softwareリファレンスガイド" の "SCore-D を複数フクスウユーザ環境カンキョウ起動キドウする" を、全般ゼンパンについては "SCore Cluster System Softwareの利用リヨウガイド" の "はじめに" を 参照サンショウしてください。
6.
SCore でどのように CPU を割り当てるのか?
SCore で割り当てるのは host であって cpu ではありません。したがって、どのジョブをどのCPUで実行ジッコウするかを指定シテイすることはできません。
7.
SCoreで標準入力 ヒョウジュンニュウリョク必要ヒツヨウとするプログラムを実行ジッコウできますか? SCore 5.2.0 以降は最初のプロセスのみ標準入力を使用できます。 SCore 5.0.1 以前の SCore は直接チョクセツ標準入力 ヒョウジュンニュウリョクすることはできません。
以下イカのようにしてください。
      % scrun scatter -node 0 == ./a.out
      
8.
代替ダイタイ ホスト機能キノウ 利用リヨウした場合バアイ、Compute Hostが1台故障 ダイコショウ停止 テイシしても、実行中 ジッコウチュウのプログラムはウゴきつづけるのでしょうか? SCore-D の multi user mode でのみ可能カノウです。
scored を再起動サイキドウして、 checkpoint を採取サイシュ した段階ダンカイ から restartします。

詳細ショウサイは、"SCore Cluster System Softwareリファレンスガイド" の "SCore-D の自動運転ジドウウンテン自動復旧ジドウフッキュウ" を参照サンショウしてください。



分類: OMNI


質問
回答
1.
NPB on OpenMP をコンパイルするとエラーになる
make.defの内容ナイヨウアヤマりがないか確認カクニンしてください。CLINKFLAGS -lmがあるか確認カクニンしてください。SCASH環境カンキョウでこのプログラムを実行ジッコウする場合バアイは、-omniconfig=scashに CFLAGSとCLINKFLAGSを追加ツイカしてください。
2.
NPB on OpenMP の LU が動かない

/opt/omni/doc/omni-scash-status.htmlにしたがい、環境変数 OMNI_SCASH_ARGS_SIZE. OMNI_SCASH_ARGS_SIZE を設定セッテイしてください。



分類: MPICH


質問
回答
1.
MPIプログラムのパフォーマンスをSCoreで解析カイセキしたい。 MPEライブラリが使用 シヨウできます。
MPICH/SCoreではupshot、Jumpshot 3 log viewerが使用シヨウできます。
Jumpshot 3を使用シヨウする場合バアイは、以下イカトオりです。
1. MPIプログラムを -mpilog オプションをつけてコンパイル・リンクします。
      % mpicc -mpilog foo.c -o foo
      
2. SLOGの環境変数カンキョウヘンスウ PE_LOG_FORMAT を設定 セッテイします。
      % setenv PE_LOG_FORMAT SLOHG
      
3. プログラムを実行ジッコウします。
      % scrun ./foo
      
ここで、ログ(program_name.slog)が作成サクセイされます。

4. logviewerでログを参照サンショウ します。
      % logviewer foo.log
      

Jumpshot3を使用シヨウする場合バアイ以下イカ参照サンショウしてください。
  /opt/score/doc/mpi/jumpshot/index.html
MPEプロファイルライブラリの詳細 ショウサイは "MPEユーザガイド" を参照サンショウしてください。



分類: PBS


質問
回答
1.
sc_qsub で -l オプションが指定できない
SCore5.0.0では指定シテイできません。
>SCore5.3.0 で対応しました。
2.
pbs でresources_max.walltime は動くか?
使ツカえますが、反応ハンノウワルいです。



分類: 性能


質問
回答
1.
PM/Ethernetで、scstest や rcstest が失敗する pm-ethernet.conf の maxnsend と backoff を最適化して下さい。 あるいは、timeout オプションを試して下さい。
      % scstest -network ethernet -timeout 10
      % rcstest node00 ethernet -v -timeout 10
      

2.
MPIで記述キジュツ した簡単カンタン 自作ジサク プログラムを実行ジッコウ するたびに、処理開始 ショリカイシまでの時間 ジカンかるようになってしまいます。 以下イカ確認カクニンしてください。

1. ether の IRQ が重複ジュウフクしていないかどうか?
  ※ IRQ の重複ジュウフク以下イカのコマンドをCompute Hostジョウ実行ジッコウすることで判断ハンダンできます。
      % cat /proc/interrupts
      
2. switching hub が正常動作セイジョウドウサしているか?
一度イチドスイッチの電源デンゲンを off/on してみてください。
また、特定トクテイの port がおかしい場合バアイもありますので、 ホカのportにツナナオしてみてください。

上記ジョウキ問題モンダイない場合バアイ、pm-ethernet.confファイルナイ以下イカのパラメータをチューニングしてください。

    maxnsend
    backoff
3.
Myrinet 2000上の PM/Myrinet MPICH/SCoreの性能がMPICH/GMより低い

MPICH/GMはデフォールトでzero-copy通信を使うように設定されていますが、 MPICH/SCoreはデフォールトでzero-copy通信を使いません。次のように、scrunで、 mpi_zerocopy=on を使ってみて下さい。
      % scrun-nodes=4x1,mpi_zerocopy=on a.out
      
4.
PM/Ethernet上のMPICH/SCore の性能がMPICH/p4(LAM)より低い /opt/score/etc/pm-ethernet.conf で定義されているパラメータは最適化されて いません。 pm-ethernet.conf ファイルの中の maxnsend と backoffを最適化してみて下さい。
あるいは、mpi_eager オプションを試して下さい。
          scrun -nodes=4x1,mpi_eager=1000000 a.out
      



分類: その他


質問
回答
1.
SCoreではCPUのアーキテクチャによらずに動作するか?
x86ケイおよびalphaケイで、きちんとSCoreを設定セッテイしていれば動作ドウサします。x86 系の異なるプロセッサタイプにカンしては、EITを使う限りは、同一プロセッサ、同一性能のホストがつながっているとして/opt/score/etc/scorehosts.dbに登録しています。
2.
PowerPC へ移植イショク されていますか? していません。
3.
SCore クラスタで score 以外の mpi program を動かすには?
他の mpi を install すれば良いです。
4.
商業用ショウギョウヨウ MPIプログラムはSCore ジョウ動作 ドウサしますか?
動作ドウサ させることは可能カノウ です。
SCore環境カンキョウ にMPICH(EthernetのTCP, MyrinetのTCP)をインストールして アプリケーションを実行させることができます。
5.
Compute Hostをデュアルブートにすることはできますか? RedHat 7.2がスデ にインストールされているならパーティションをけずに rpm またはソースから インストールができます。
(1 Compute Hostあたり /optに50MB、 /var/scoredに1GBの領域リョウイキ必要 ヒツヨウです。)

すでにホカのディストリビューションがインストールされているなら、パーティションを 分割ブンカツして RedHat 7.2をインストールし、rpmまたはソースからSCoreをインストール してください。

rpmまたはソースからのインストール方法ホウホウは "SCore Cluster System Software インストールガイド" の "RPMファイルによるインストール" または、"ソースからのインストール" を参照サンショウしてください。

インストールは デュアルブートできるようにブートローダを変更ヘンコウしてください。
6.
redhat 7.3 で SCore 5.0.1 が動くか?
ウゴきます。
しかし、もし SCore 自身をコンパイルしたい場合は SCore 5.2 を 使用してください。
7.
代替ダイタイ ホストをscorehosts.dbファイルに記述キジュツする場合バアイ、この代替ダイタイホストの所属ショゾクするグループはホカのCompute Hostとオナじにしていのでしょうか? 代替ダイタイ ホストは、Compute Hostとオナじグループには れないでください。
タダし、 group 以外イガイ 設定セッテイ (network, msgbserv) はわせてください。
8.
Myrinet上でrpmtestを実行するとカーネルがハングする
以下のコマンドを用いてIRQをチェックして下さい。

      % cat /proc/interrupts
      

もし、MyrinetのIRQ(myriと表現されます)が他のデバイスと共用されている場合、 MyrinetのIRQをBIOSもしくはMyrinetの搭載slotを変更するなどして変えて下さい。





PCCC logo PC Cluster Consotium

CREDIT
This document is a part of the SCore cluster system software developed at PC Cluster Consortium, Japan. Copyright (C) 2003 PC Cluster Consortium.