質問 |
回答 |
|
1. |
ypcat hosts の結果 | と /etc/hostsファイルの内容が異なっています。/etc/hosts の内容を NIS に反映# cd /var/yp # makeを実行してください。 ※ ypcat で同じ行が複数出現するのは bug ではありません。 % ypcat hosts | sort -uで /etc/hosts ファイルの内容と一致 すれば問題 ありません。 |
させるためには
2. |
システムテスト「sceptic -v -g pcc」に失敗する。また、client から server
に telnet できない。 |
サーバーでNISを使っている場合は、/etc/hostsに server 名で
localhost が書かれてしまっていないか(「127.0.0.1 server.domain server」)確認してください。書かれている場合は、この行を削除し、新たに正しいIPアドレスをもつ行を追加してください。次に、NISデータベースを更新するために、「# cd /var/yp;make」を実行してください。 |
3. |
msgbserv が立ち上がらない。 |
NIS, DNS, /etc/hostsの設定が正しいか確認してください。 |
4. |
scout の起動に失敗する。 |
SCore5.0.0以前のバージョンを使用している場合には、/etc/hostsでhostname
に FQDN と単純なホスト名の両方をつけてください。SCore
5.0.1 では対応済です。 |
5. |
scrun で1台だけ No self host
error がでる。 |
エラーが出るホストの
/etc/hosts が正しく設定されているか確認してください。 |
質問 |
回答 |
|
1. |
私 のマシンにはFDD装置 SCoreはFDD装置 なしでインストールできますか? SCoreのCDでCDブートできますか? |
がついていません。SCoreのクライアントブートイメージを持ったCD-Rを作成することで、 SCoreをインストールすることができます。 SCoreクライアントのブートイメージは、/opt/score/ndboot/images/ の下にあります。 以下の 操作で ブートCD-ROMを作成 することができます。 # mkisofs -b /opt/score/ndboot/images/100Mbps_Ethernet.img -c boot.catalog -o /tmp/score-boot.iso -J -r -Tcdrecord または xcdroast を使用してCD-R作成してください。 |
2. |
EITはeth2を使用してCompute Hostのセットアップができますか? | EITはeth0でしか動作しません。 eth1やeth2を使用したい場合、eth0を使用してインストールした後で、eth0をeth2に変更してください。 |
3. |
EIT起動時に、parameter(domainName) が設定できなくて止まる。 |
NIS設定を確認してください。NISサーバーで、以下のコマンドを実行してFQDNホスト名を返すか確認してください。「% ypmatch your_servers_hostname
| awk '{print $2}'」 |
4. |
EITでインストール中、Cannot resolve the host
comp0.pccluster.org IP addressによりインストールができない。 |
NIS, DNS, /etc/hostsの設定が正しいか確認してください。 |
5. |
EITでインストール中、Cannot resolve the server's
hostname from IP addressによりインストールができない。 |
NIS, DNS, /etc/hostsの設定が正しいか確認してください。 |
6. |
boot disk を作るときにgrab failed:
another application has grabエラーがでた。 |
他のアプリケーションがFloppy デバイスを使用している可能性があります。 |
7. |
ブートフロッピーを作成 | し、 Easy Installation Tool(EIT)でインストールを実施したとき、 "/opt/score/setup//RedHat/instimage/compconf/.conf"ディレクトリが存在しないというエラーメッセージが表示されました。Server Hostの/optパーティションの空き領域 をチェックしてください。% df /opt/opt/scoreは約 500MB必要 とします。 |
8. |
SCore5.0.0で、計算ホストのインストール時、anaconda の起動に失敗する。 |
SCore 5.0.1 で対応済です。 |
9. |
e1000 で EIT が動かない。 |
boot floppy が対応していません。SCore 5.2.0以降ではe1000に対応しています。 ネットワークブートディスク選択画面で 1Gbps_Ethernet を選んでください。 |
10. |
EITでインストールするときに、以下のメッセージが出てファイル転送が止まってしまいます。 The file mnt/source2/RedHat/RPMS/ cannot be opened. This is due to a missing file, a bad package, or bad media. Press |
2つの原因が考えられます。 (1) CD-ROMからreadできていない。 回避策として、CD-ROMイメージをディスクにコピーし、 そこをmount point にして実行してみてください。 (2) NFSの動作異常。 この場合の仮対処方法は以下の通りです。 1)Alt + F2を押すとshell画面に切り替わります。 2)ここで、 # cd /mnt/cdrom/RedHat/RPMS/ # ls -l パッケージ名 3)その後、Server Host上で、エラーメッセージダイアログのOKボタンをクリック。 4)"ls: パッケージ名: State NFS file handle"のようなメッセージが出た場合、lsの結果が出てくるまで何回か試します。 |
11. |
root file system が大きくて boot
できない。EIT で /boot などのパーティションを切れない。 |
rootのパーティションを8GB以下にしてください。 SCore 5.2.0 以降では /boot パーティションを作成できます。 |
12. |
EITでインストールした場合 | 、環境変数 の設定は必要ですか?Server Hostに login した時点で設定 | されるので必要はありません。
13. |
「SCore Cluster System Software インストールガイド」の「RPMファイルによるインストール」における注意点を教えてほしい。 | 以下の通りです。 3. Compute Hostの設定 - SCore Linux Kernel のインストレーション ・/etc/lilo.confのカーネルイメージ名は以下が正しいです。 *-2.4.18-3SCOREsmp *-2.4.18-3SCORE - SCoreシステムインストール ・./bininstall は続けて2回実行しないと全てのファイルがコピーされない場合があります。 4. サーバホストの設定 ・scorehosts.dbのサンプルファイルの位置は以下の通りです。 doc/html/installation/ -> doc/html/en/installation/ ・msgbserv 始動後 /var/log/msgbserv.out ファイルは存在しません。 ・PM-IIデバイスの設定は以下の通りに実施します。 # /opt/score/deploy/mkpmethernetconf -speed 100 pm-udp.conf ->/opt/score/deploy/mkpmethernetconf -speed 100 -g pcc - その他 ・Server Host を Compute Host として利用するには以下の通り設定します。 * Server Host 上で ./bininstall -compute を実施。 * Compute Host の設定と同様の作業を実施。 |
質問 |
回答 |
|
1. |
SCore がサポートしている Gigabit ethernet
は? |
PM/EthernetはEthernet NIC,Switchに依存しませんが、性能はNIC H/Wに依存します。推奨リストを参照してください。 |
2. |
Gigabit EthernetでNetwork Trunkingは可能ですか? | Gigabit EthernetでNetwork Trunkingを使用するならば、PCI DMA バンド幅が 小さいことから 高帯域幅 を達成 するために 66MHz 64bit PCIでJUMBO
FRAMEをサポートした Ethernet Switchesや NICを使用すべきです。 PCI-X、又は、 多数の PCIバスで、パフォーマンスは向上されるかもしれません。 "SCore Cluster System Softwareの概要" の "PM 通信性能" を参照してください。 注意: JUMBO FRAMEとNetwork Trunkingを用いてSysKonnect 9843 NICs, 3Com 996B-T, Broadcom 5701 NICs をテストしました。 また、Intel PRO100T, PRO1000XTでの動作確認 はしましたが、JUMBO FRAMEのテストは 行っていません。 |
3. |
myrinet をスイッチなしで直接つないだときの
config file の書き方 |
pm-myrinet.confを以下のように設定してください。 0 node0.pccluster.org 1 node1.pccluster.org |
4. |
etherpmctl で resource busy |
指定したデバイスは既に使われています。引数を確認してください。 |
5. |
rpmtest(scstest, rcstest)などでPM/Ethernetの通信が失敗します。 |
以下の原因が考えられます。
|
6. |
PMテストで、scstest などがうまくいかない。 |
IRQ が重複していないか確認してください。IRQを自動設定にしている場合には、重複しないようにBIOSでマニュアル設定してください。 |
7. |
mandel を ethernet and SMP
で動かすと crash する。 |
SCore5.0.0のPM/Ethernet の bugです。SCore5.0.1で対応済です。 |
8. |
SK-9D21 で SCore を動かすと crash
する。 |
NICのデバイスドライバの問題です。安定したデバイスドライバを利用してください。SysKonnect
SK-984xとIntel pro1000/Tが高いバンド幅と低いレイテンシを実現します。 |
9. |
Myrinet2000を使用してジョブを実行 SCore-D 4.0 connected. <3> ULT:SYSCALLPANIC(../recv.c:85) PM Error (pmReceive) (32:Broken pipe) <5> SCore-D:WARNING Some job(s) will not stop (4 more retry) <5> SCore-D:WARNING Force to stop JOB 1 : <5> SCore-D:WARNING Failed to stop job(s). <5> SCore-D:WARNING Force to kill JOB 1 |
したところ、以下のようなエラーメッセージが表示
されました。 (DLPOLY
chemistry code):このエラーは、パケット受信中にタイムアウトが発生し、Myrinet NIC がリセットされたことを意味 もしこのエラーがまた発生 した場合 は、ハードウェアに問題があるかもしれません。 エラーが発生しなかった場合は、気にする 必要はありません。 |
します。
10. |
ethernet trunking の性能がでない。NIC1枚と2枚で同程度。 |
scorehosts.db の設定が正しいか確認してください。 |
質問 |
回答 |
|
1. |
SCoreのMPICHにGNU以外のコンパイラを使用することができますか? | 使用できます。 site ファイルを編集 したあと mpiのソースだけを展開して # cd /opt/score/score-src/runtime/mpi # smake # smake installでインストールできます。 |
2. |
SCoreソースcompile のとき make が
error になる。 |
SCore5.0.0のバグです。SCore5.0.1でfixしました。 |
3. |
SCoreソースcompile のとき make が
error になる。 |
SCore5.0.0のバグです。SCore5.0.1でfixしました。 |
3. |
mpi のコンパイルの失敗 |
pgf90のコンパイラのパス/opt/pgi/linux86/bin/pgf90を確認してください。 |
4. |
SCore 5.6.1 で Intel compiler 8
を使用したい。 |
以下の手順で行ってください。
|
質問 |
回答 |
|
1. |
MPICHのサンプルプログラムをSCoreのmpiccでコンパイル、
実行した時、以下のエラーメッセージが 出力されて、 システムがハングしました。 <8> ULT: Exception Signal (11) |
scout環境下で以下のコマンドを実行してください。% scout ls -l /opt/score/deploy/bin.i386-redhat7-linux2_4/scored*もし、全てのバイナリが参照 できればOKですが、できなければSCore-Dバイナリをコピーする必要があります。 |
2. |
howtouse/xwindow.html のように,
環境変数 DISPLAY を適切に設定してくれない |
環境変数DISPLAYは自動では設定できません。ドキュメントが古く誤った記載でした。 |
3. |
SMPクラスタシステムで、scrunでプログラムを起動すると以下のエラーが出る。
$ scrun ./a.out |
このエラーは計算ノードにはCPUが2つ搭載されているが、shmemデバイスがないので、CPUを1つとして扱うと言うメッセージです。回避するには /opt/score/etc/scorehosts.dbの内容を確認してください。
# /etc/rc.d/init.d/scoreboard reload |
4. |
SCoreのデモプログラムやXに対応したアプリケーション実行時に以下のエラーが出る。
% scrun -nodes=2 /opt/score/demo/bin/pmandel |
DISPLAY変数が設定されていないか、もしくは、他のノードからの表示の許可が出ていません。 以下のコマンドを実行した後、再度プログラムを実行してください。
% export DISPLAY=server.pcc.org:0.0 |
5. |
mpirunコマンドを使用してアプリケーションを実行しました。("&"をつけて) 次に新しいジョブを 実行したところ、 "SCOUT busy"というエラーメッセージが表示 されました。 |
マルチユーザ環境を使用してください。 scored は root で実行 しなくてはいけません。 scout環境外から、mpirunに -score scored= オプションをつけて実行してください。 SCore-Dの起動方法は "SCore Cluster System Softwareリファレンスガイド" の "SCore-D を複数ユーザ環境で起動する" を、全般については "SCore Cluster System Softwareの利用ガイド" の "はじめに" を 参照してください。 |
6. |
SCore でどのように CPU を割り当てるのか? |
SCore で割り当てるのは host であって cpu ではありません。したがって、どのジョブをどのCPUで実行するかを指定することはできません。 |
7. |
SCoreで標準入力を必要とするプログラムを実行できますか? | SCore 5.2.0 以降は最初のプロセスのみ標準入力を使用できます。
SCore 5.0.1 以前の SCore は直接、標準入力をすることはできません。 以下のようにしてください。 % scrun scatter -node 0 == ./a.out |
8. |
代替 | ホスト機能 を利用した場合、Compute Hostが1台故障で停止しても、実行中のプログラムは動きつづけるのでしょうか?SCore-D の multi user mode でのみ可能です。 scored を再起動して、 checkpoint を採取した段階から restartします。 詳細は、"SCore Cluster System Softwareリファレンスガイド" の "SCore-D の自動運転と自動復旧" を参照してください。 |
質問 |
回答 |
|
1. |
NPB on OpenMP をコンパイルするとエラーになる |
make.defの内容に誤りがないか確認してください。CLINKFLAGS -lmがあるか確認してください。SCASH環境でこのプログラムを実行する場合は、-omniconfig=scashに
CFLAGSとCLINKFLAGSを追加してください。 |
2. |
NPB on OpenMP の LU が動かない |
/opt/omni/doc/omni-scash-status.htmlにしたがい、環境変数
OMNI_SCASH_ARGS_SIZE. OMNI_SCASH_ARGS_SIZE を設定してください。 |
質問 |
回答 |
|
1. |
MPIプログラムのパフォーマンスをSCoreで解析したい。 | MPEライブラリが使用できます。 MPICH/SCoreではupshot、Jumpshot 3 log viewerが使用できます。 Jumpshot 3を使用する場合は、以下の通りです。 1. MPIプログラムを -mpilog オプションをつけてコンパイル・リンクします。 % mpicc -mpilog foo.c -o foo2. SLOGの環境変数 PE_LOG_FORMAT を設定 します。 % setenv PE_LOG_FORMAT SLOHG3. プログラムを実行します。 % scrun ./fooここで、ログ(program_name.slog)が作成されます。 4. logviewerでログを参照 します。 % logviewer foo.log Jumpshot3を使用する場合は以下を参照してください。 /opt/score/doc/mpi/jumpshot/index.html MPEプロファイルライブラリの詳細は "MPEユーザガイド" を参照してください。 |
2. |
SCore 5.6.1 で Intel compiler 8
を使用したい。 |
以下の手順で行ってください。
|
質問 |
回答 |
|
1. |
sc_qsub で -l オプションが指定できない |
SCore5.0.0では指定できません。 >SCore5.3.0 で対応しました。 |
2. |
pbs でresources_max.walltime
は動くか? |
使えますが、反応が悪いです。 |
質問 |
回答 |
|
1. |
PM/Ethernetで、scstest や rcstest が失敗する | pm-ethernet.conf
の maxnsend と backoff を最適化して下さい。 あるいは、timeout オプションを試して下さい。
% scstest -network ethernet -timeout 10 % rcstest node00 ethernet -v -timeout 10
|
2. |
MPIで記述 | した簡単 な自作 プログラムを実行 するたびに、処理開始までの時間 が掛かるようになってしまいます。 以下を確認してください。 1. ether の IRQ が重複していないかどうか? ※ IRQ の重複は以下のコマンドをCompute Host上で実行することで判断できます。 % cat /proc/interrupts2. switching hub が正常動作しているか? 一度スイッチの電源を off/on してみてください。 また、特定の port がおかしい場合もありますので、 他のportに繋ぎ直してみてください。 上記に問題ない場合、pm-ethernet.confファイル内の以下のパラメータをチューニングしてください。 maxnsend backoff |
3. |
Myrinet 2000上の PM/Myrinet MPICH/SCoreの性能がMPICH/GMより低い |
MPICH/GMはデフォールトでzero-copy通信を使うように設定されていますが、
MPICH/SCoreはデフォールトでzero-copy通信を使いません。次のように、scrunで、 mpi_zerocopy=on を使ってみて下さい。
% scrun-nodes=4x1,mpi_zerocopy=on a.out |
4. |
PM/Ethernet上のMPICH/SCore の性能がMPICH/p4(LAM)より低い | /opt/score/etc/pm-ethernet.conf で定義されているパラメータは最適化されて
いません。 pm-ethernet.conf
ファイルの中の maxnsend と backoffを最適化してみて下さい。 あるいは、mpi_eager オプションを試して下さい。 scrun -nodes=4x1,mpi_eager=1000000 a.out |
質問 |
回答 |
|
1. |
SCoreではCPUのアーキテクチャによらずに動作するか? |
x86系およびalpha系で、きちんとSCoreを設定していれば動作します。x86 系の異なるプロセッサタイプに関しては、EITを使う限りは、同一プロセッサ、同一性能のホストがつながっているとして/opt/score/etc/scorehosts.dbに登録しています。 |
2. |
PowerPC へ移植されていますか? | していません。 |
3. |
SCore クラスタで score 以外の mpi
program を動かすには? |
他の mpi を install すれば良いです。 |
4. |
商業用MPIプログラムはSCore上 |
で動作 しますか?動作 SCore環境 にMPICH(EthernetのTCP, MyrinetのTCP)をインストールして アプリケーションを実行させることができます。 |
させることは可能です。
5. |
Compute Hostをデュアルブートにすることはできますか? | RedHat 7.2が既にインストールされているならパーティションを分けずに rpm またはソースから インストールができます。 (1 Compute Hostあたり /optに50MB、 /var/scoredに1GBの領域が必要 です。) すでに他のディストリビューションがインストールされているなら、パーティションを 分割して RedHat 7.2をインストールし、rpmまたはソースからSCoreをインストール してください。 rpmまたはソースからのインストール方法は "SCore Cluster System Software インストールガイド" の "RPMファイルによるインストール" または、"ソースからのインストール" を参照してください。 インストール後は デュアルブートできるようにブートローダを変更してください。 |
6. |
redhat 7.3 で SCore 5.0.1 が動くか? |
動きます。 しかし、もし SCore 自身をコンパイルしたい場合は SCore 5.2 を 使用してください。 |
7. |
代替 | ホストをscorehosts.dbファイルに記述する場合、この代替ホストの所属するグループは他のCompute Hostと同じにして良いのでしょうか?代替 但し、 group 以外の 設定 (network, msgbserv) は合わせてください。 |
ホストは、Compute Hostと同じグループには入 れないでください。
8. |
Myrinet上でrpmtestを実行するとカーネルがハングする |
以下のコマンドを用いてIRQをチェックして下さい。
% cat /proc/interrupts もし、MyrinetのIRQ(myriと表現されます)が他のデバイスと共用されている場合、 MyrinetのIRQをBIOSもしくはMyrinetの搭載slotを変更するなどして変えて下さい。
|
![]() |
PC Cluster Consotium |