From honda @ ace.ec.saga-u.ac.jp Thu Jun 11 20:57:05 2009 From: honda @ ace.ec.saga-u.ac.jp (Kohei HONDA) Date: Thu, 11 Jun 2009 20:57:05 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU3GyRCJE4bKEJCZXRhMQ==?= =?iso-2022-jp?b?GyRCJCskaRsoQkJldGEyGyRCJFgkTjBcOVQkSyREJCQkRhsoQg==?= Message-ID: <20090611205705.4014d1e0.honda@ace.ec.saga-u.ac.jp> 佐賀大学の本田です。 以前はr8169のdriverのSCore7 Beta1への対応について ご助言いただき,ありがとうございました。 今回,SCore7 Beta2を導入しようと考え,ダウンロードページの tar.gz file contains the ALL SCore x86_64 binary rpms for CentOS 5 からダウンロードしたrpmを用い以下のコマンドでインストールを試みました。 # sh ./bininstall -server # sh ./bininstall -comp しかし,Beta1のパッケージと競合していて失敗しました。 そこで,--forceオプションを付加してインストールを行いました。 その後, $ scout -g pcc を実行したところ以下のようなエラーが発生し完了できませんでした。 (pccは全ノードが含まれているグループです。) WINDUP.EXE @ scoreheadnode#19244:ERROR: windup_accept() at windup.c:238: Waiting response from score01.scorepccluster.org timed out. pmx_ethernet_loader.koは以前修正したものを使用しています。 この問題にはどのように対処すればよいでしょうか? よろしくお願いします。 -- 佐賀大学大学院工学系研究科 博士前期課程電気電子工学専攻 計算機応用工学研究室 08534026 本田 晃平 honda @ ace.ec.saga-u.ac.jp From kameyama @ pccluster.org Fri Jun 12 09:13:56 2009 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Fri, 12 Jun 2009 09:13:56 +0900 Subject: [SCore-users-jp] =?ISO-2022-JP?B?U0NvcmU3GyRCJE4bKEJCZXRhMRskQiQrGyhC?= =?ISO-2022-JP?B?GyRCJGkbKEJCZXRhMhskQiRYJE4wXDlUJEskRCQkJEYbKEI=?= In-Reply-To: <20090611205705.4014d1e0.honda@ace.ec.saga-u.ac.jp> References: <20090611205705.4014d1e0.honda@ace.ec.saga-u.ac.jp> Message-ID: <4A319DC4.7030308@pccluster.org> 亀山です. Kohei HONDA Wrote: > $ scout -g pcc > > を実行したところ以下のようなエラーが発生し完了できませんでした。 > (pccは全ノードが含まれているグループです。) > > WINDUP.EXE @ scoreheadnode#19244:ERROR: windup_accept() at windup.c:238: Waiting > response from score01.scorepccluster.org timed out. scout のとき使用するコマンドの default が rsh から ssh に変更したため だと思います. 環境変数 SCORE_RSH を /usr/bin/rsh に設定してみてください. Kameyama Toyohisa From honda @ ace.ec.saga-u.ac.jp Fri Jun 12 20:49:33 2009 From: honda @ ace.ec.saga-u.ac.jp (Kohei HONDA) Date: Fri, 12 Jun 2009 20:49:33 +0900 Subject: [SCore-users-jp] =?ISO-2022-JP?B?U0NvcmU3GyRCJE4bKEJCZXRhMQ==?= =?ISO-2022-JP?B?GyRCJCskaRsoQkJldGEyGyRCJFgkTjBcOVQkSyREJCQkRhsoQg==?= In-Reply-To: <4A319DC4.7030308@pccluster.org> References: <20090611205705.4014d1e0.honda@ace.ec.saga-u.ac.jp> <4A319DC4.7030308@pccluster.org> Message-ID: <20090612204933.79e41259.honda@ace.ec.saga-u.ac.jp> 佐賀大学の本田です。 亀山様ご回答ありがとうございます。 > scout のとき使用するコマンドの default が rsh から ssh に変更したため > だと思います. > 環境変数 SCORE_RSH を /usr/bin/rsh に設定してみてください. この設定を行ったところ,compute hostではscoutコマンドで ホストグループの指定を行うことができるようになりました。 しかし,server host兼compute hostを含めてホストグループの 指定を行うと,以前と同様に $ scout -g 0_1 WINDUP.EXE @ scoreheadnode#12082:ERROR: windup_accept() at windup.c:238: Waiting response from scoreheadnode.scorepccluster.org timed out. scoreheadnode.scorepccluster.org: Connection refused 上記のようなエラーが発生してしまいます。 server hostには,server host・compute hostから rshでログインできることは確認しています。 また,compute host2台でホストグループを指定し,mpiプログラムを投入すると, $ scrun -nodes=1 ./a.out SCORED.EXE @ score01#8366:ERROR: open_pmx_context() at mpcrt.c:138: Unable to add 'realtek' network device: No such file or directory SCORED.EXE @ score02#7976:ERROR: open_pmx_context() at mpcrt.c:138: Unable to add 'realtek' network device: No such file or directory SCOUT(score02): Process 7976 exited with a non-zero exit code (9). 上記のエラーが発生します。 a.outはmpiハローワールドです。 scorehosts.dbには, realtek type=ethernet channel=0 netdev=eth0 と指定しています。 上記のエラーに関してご助力お願いします。 -- 佐賀大学大学院工学系研究科 博士前期課程電気電子工学専攻 計算機応用工学研究室 08534026 本田 晃平 honda @ ace.ec.saga-u.ac.jp From kameyama @ pccluster.org Mon Jun 15 09:35:27 2009 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Mon, 15 Jun 2009 09:35:27 +0900 Subject: [SCore-users-jp] =?ISO-2022-JP?B?U0NvcmU3GyRCJE4bKEJCZXRhMRskQiQrGyhC?= =?ISO-2022-JP?B?GyRCJGkbKEJCZXRhMhskQiRYJE4wXDlUJEskRCQkJEYbKEI=?= In-Reply-To: <20090612204933.79e41259.honda@ace.ec.saga-u.ac.jp> References: <20090611205705.4014d1e0.honda@ace.ec.saga-u.ac.jp> <4A319DC4.7030308@pccluster.org> <20090612204933.79e41259.honda@ace.ec.saga-u.ac.jp> Message-ID: <4A35974F.1010204@pccluster.org> 亀山です. Kohei HONDA Wrote: >> scout のとき使用するコマンドの default が rsh から ssh に変更したため >> だと思います. >> 環境変数 SCORE_RSH を /usr/bin/rsh に設定してみてください. > > この設定を行ったところ,compute hostではscoutコマンドで > ホストグループの指定を行うことができるようになりました。 > しかし,server host兼compute hostを含めてホストグループの > 指定を行うと,以前と同様に > > $ scout -g 0_1 > WINDUP.EXE @ scoreheadnode#12082:ERROR: windup_accept() at windup.c:238: Waiting response from scoreheadnode.scorepccluster.org timed out. > scoreheadnode.scorepccluster.org: Connection refused > > 上記のようなエラーが発生してしまいます。 > server hostには,server host・compute hostから > rshでログインできることは確認しています。 compute host から scoreheadnode に rsh できるかどうか確認してください. scoreheadnode に NIC が 2 枚以上ついていて, scoreheadnode が外部 NIC に対する名前であるとき, compute host から scoreheadnode への rsh ができないかも知れません. > また,compute host2台でホストグループを指定し,mpiプログラムを投入すると, > > $ scrun -nodes=1 ./a.out > SCORED.EXE @ score01#8366:ERROR: open_pmx_context() at mpcrt.c:138: Unable to add 'realtek' network device: No such file or directory > SCORED.EXE @ score02#7976:ERROR: open_pmx_context() at mpcrt.c:138: Unable to add 'realtek' network device: No such file or directory > SCOUT(score02): Process 7976 exited with a non-zero exit code (9). > > 上記のエラーが発生します。 > a.outはmpiハローワールドです。 環境変数 SCBDSERV は何になっているでしょうか? Kameyama Toyohisa From yukio.yamaishi @ gmail.com Tue Jun 16 19:08:35 2009 From: yukio.yamaishi @ gmail.com (Yukio Yamaishi) Date: Tue, 16 Jun 2009 19:08:35 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?TVBJGyRCJEskRCQkJEYbKEI=?= Message-ID: <12654dd10906160308r7f5c26a4m10ac706e044acf0a@mail.gmail.com> 皆様 はじめまして、山石と申します。 並列処理のド素人なので、初歩的な質問が多く、大変恐縮でございます。 現在WRFと呼ばれる気象モデルを動かしているが、MPIを使った並列について、 ご教授をいただければと思います。 各ノード2 CPU(実際はintel core 2)、4GBメモリー、合計8ノード、intel compiler 10、 OpenMPIおよびMPICHの環境です。 1. 例えばある領域に対して、予報計算を行うと、 "mpi -np N a.out" N : 5-16の場合はちゃんと計算が終了する。 N: 1-2の場合も問題ない(core 2なので、実際この場合は1ノードのみ) N: 3-4の場合は問題あり。 mpirun noticed that job rank 2 with PID 3879 on node host-0-1 exited on signal 11 (Segmentation fault). 1 additional process aborted (not shown) .bashrcに対して、ulimit -s unlimited や ulimit -s 819200000と設定してあります。 質問1: N: 3-4の設定に対して、問題サイズが大きすぎて解けないから、上記エラーになったのでしょうか? 質問2:N:1-2では(実際1ノード)解けて、N:3-4なら解けない。5-16ならまた解けるという現象について、 どう解釈すれば宜しいのでしょうか? 関係あるかどうかは分かりませんが、例えば予報計算の領域を大きくすると、 N:1-2, N:16なら解けるが、それ以外は上記エラーが出力されます。 2. MPIに関するチューニングはどうすればいいのでしょう? WRF本体にソースコードに手を入れることはできません。例えば mpirun などのコマンドを実行する際に、 送受信サイズを変更してみたりすることはできないのでしょうか? ほかに何か触れるところはあるのでしょうか? 以上です。よろしくお願い致します。 -------------- next part -------------- HTMLの添付ファイルを保管しました... URL: From kameyama @ pccluster.org Wed Jun 17 10:01:33 2009 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Wed, 17 Jun 2009 10:01:33 +0900 Subject: [SCore-users-jp] =?ISO-2022-JP?B?TVBJGyRCJEskRCQkJEYbKEI=?= In-Reply-To: <12654dd10906160308r7f5c26a4m10ac706e044acf0a@mail.gmail.com> References: <12654dd10906160308r7f5c26a4m10ac706e044acf0a@mail.gmail.com> Message-ID: <4A38406D.9030801@pccluster.org> 亀山です. WRF は見ていませんが... Yukio Yamaishi Wrote: > 1. 例えばある領域に対して、予報計算を行うと、 > "mpi -np N a.out" > N : 5-16の場合はちゃんと計算が終了する。 > N: 1-2の場合も問題ない(core 2なので、実際この場合は1ノードのみ) > N: 3-4の場合は問題あり。 > > mpirun noticed that job rank 2 with PID 3879 on node host-0-1 exited on > signal 11 (Segmentation fault). > 1 additional process aborted (not shown) > > .bashrcに対して、ulimit -s unlimited や ulimit -s 819200000と設定してあります。 > > 質問1: N: 3-4の設定に対して、問題サイズが大きすぎて解けないから、上記エラーになったのでしょうか? > 質問2:N:1-2では(実際1ノード)解けて、N:3-4なら解けない。5-16ならまた解けるという現象について、 > どう解釈すれば宜しいのでしょうか? host をまたがると, ホスト間通信のためのリソースが必要になりますが, 1 process 2 GB で動いているのですから, 3 process でだけ動かない のでしたらともかく, 4 process で動かないのはおかしいような... 3 host で 3 プロセス動かすとか, 4 host で 4 process 動かす とかすれば問題サイズの問題かどうか切り分けられると思います. その前に debugger を起動するようにしてどこで segmentation fault を起こしているか確認するのが先でしょうけど... > 2. MPIに関するチューニングはどうすればいいのでしょう? > > WRF本体にソースコードに手を入れることはできません。例えば mpirun などのコマンドを実行する際に、 > 送受信サイズを変更してみたりすることはできないのでしょうか? > > ほかに何か触れるところはあるのでしょうか? これは, 使用する mpi の種類と configuration に依存します. openmpi でしたら, run-time tuning FAQ というのがあります. http://www.open-mpi.org/faq/?category=tuning Kameyama Toyohisa From yukio.yamaishi @ gmail.com Wed Jun 17 16:09:11 2009 From: yukio.yamaishi @ gmail.com (Yukio Yamaishi) Date: Wed, 17 Jun 2009 16:09:11 +0900 Subject: =?ISO-2022-JP?B?UmU6IFtTQ29yZS11c2Vycy1qcF0gTVBJGyRCJEskRCQkJEYbKEI=?= In-Reply-To: <4A38406D.9030801@pccluster.org> References: <12654dd10906160308r7f5c26a4m10ac706e044acf0a@mail.gmail.com> <4A38406D.9030801@pccluster.org> Message-ID: <12654dd10906170009w3e274345k8cec40c52992eb31@mail.gmail.com> 亀山様 ご返信、ありがとうございます。 ためしにopenmpi-default-hostfileに対して、1ノード1CPUと定義してみました。 #cat openmpi-default-hostfile server cpu=1 host-0-0 cpu=1 host-0-1 cpu=1 ;; ;; host-0-6 cpu=1 mpirun -n N wrf.exeについて、 N=1 は成功、N=2-5,7は失敗、N=6, 8は成功 この問題サイズなら、そもそも6以上でないと解けないと言う意味でしょうか? そうであれば、なぜN=1は成功するか? なぜ7は失敗するのでしょうか?そもそも、奇数はだめ? よろしくお願い致します。 山石 よろしくお願い致します。 2009/6/17 Kameyama Toyohisa > 亀山です. > > WRF は見ていませんが... > > Yukio Yamaishi Wrote: > > 1. 例えばある領域に対して、予報計算を行うと、 > > "mpi -np N a.out" > > N : 5-16の場合はちゃんと計算が終了する。 > > N: 1-2の場合も問題ない(core 2なので、実際この場合は1ノードのみ) > > N: 3-4の場合は問題あり。 > > > > mpirun noticed that job rank 2 with PID 3879 on node host-0-1 exited on > > signal 11 (Segmentation fault). > > 1 additional process aborted (not shown) > > > > .bashrcに対して、ulimit -s unlimited や ulimit -s 819200000と設定してあります。 > > > > 質問1: N: 3-4の設定に対して、問題サイズが大きすぎて解けないから、上記エラーになったのでしょうか? > > 質問2:N:1-2では(実際1ノード)解けて、N:3-4なら解けない。5-16ならまた解けるという現象について、 > > どう解釈すれば宜しいのでしょうか? > > host をまたがると, ホスト間通信のためのリソースが必要になりますが, > 1 process 2 GB で動いているのですから, 3 process でだけ動かない > のでしたらともかく, 4 process で動かないのはおかしいような... > > 3 host で 3 プロセス動かすとか, 4 host で 4 process 動かす > とかすれば問題サイズの問題かどうか切り分けられると思います. > > その前に debugger を起動するようにしてどこで segmentation fault > を起こしているか確認するのが先でしょうけど... > > > 2. MPIに関するチューニングはどうすればいいのでしょう? > > > > WRF本体にソースコードに手を入れることはできません。例えば mpirun などのコマンドを実行する際に、 > > 送受信サイズを変更してみたりすることはできないのでしょうか? > > > > ほかに何か触れるところはあるのでしょうか? > > これは, 使用する mpi の種類と configuration に依存します. > openmpi でしたら, run-time tuning FAQ というのがあります. > http://www.open-mpi.org/faq/?category=tuning > > Kameyama Toyohisa > > -------------- next part -------------- HTMLの添付ファイルを保管しました... URL: From kameyama @ pccluster.org Thu Jun 18 13:35:19 2009 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Thu, 18 Jun 2009 13:35:19 +0900 Subject: [SCore-users-jp] =?ISO-2022-JP?B?TVBJGyRCJEskRCQkJEYbKEI=?= In-Reply-To: <12654dd10906170009w3e274345k8cec40c52992eb31@mail.gmail.com> References: <12654dd10906160308r7f5c26a4m10ac706e044acf0a@mail.gmail.com> <4A38406D.9030801@pccluster.org> <12654dd10906170009w3e274345k8cec40c52992eb31@mail.gmail.com> Message-ID: <4A39C407.5090200@pccluster.org> 亀山です. Yukio Yamaishi Wrote: > ためしにopenmpi-default-hostfileに対して、1ノード1CPUと定義してみました。 ちなみに, openmpi の mpirun には -bynode というオプションがあります. > mpirun -n N wrf.exeについて、 > > N=1 は成功、N=2-5,7は失敗、N=6, 8は成功 > > > この問題サイズなら、そもそも6以上でないと解けないと言う意味でしょうか? > そうであれば、なぜN=1は成功するか? 前は N=3, N=4 のとき, 前回の倍のメモリが使用可能なはずで, それでも失敗していて, 今回 N=5, N=7 でも失敗したのですから, 原因はメモリ不足のためではなさそうです. http://blog.livedoor.jp/rootan2007/archives/51117338.html によると Open MPIの場合には、WRFのコンパイル時にconfigureに "-xT " 等の Core2系(i586やi686系)専用のOptimizeは付けない。 付けると、コンパイルは成功するが、実行時にSegmentation Errorが 生じる事がある。 mpirunを行った時にエラーが出る場合は、" --debug-daemons" のオプションを 付けて実行することで、エラーの詳細を見ることができる。 と. 書かれています. (これが正しいかどうかは分かりませんが...) ちなみに, このページのコメント 4 には また、Core2 Quadの場合にはモデルにもよりますが、メモリバスの帯域問題で 4スレッド使用して計算するよりも、3スレッド使用の方が計算が 速くなることがあります。 と, ありますので, N=3 でも動いているようです. Kameyama Toyohisa