From honda ＠ ace.ec.saga-u.ac.jp  Thu Jun 11 20:57:05 2009
From: honda ＠ ace.ec.saga-u.ac.jp (Kohei HONDA)
Date: Thu, 11 Jun 2009 20:57:05 +0900
Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU3GyRCJE4bKEJCZXRhMQ==?=
 =?iso-2022-jp?b?GyRCJCskaRsoQkJldGEyGyRCJFgkTjBcOVQkSyREJCQkRhsoQg==?=
Message-ID: <20090611205705.4014d1e0.honda@ace.ec.saga-u.ac.jp>

佐賀大学の本田です。

以前はr8169のdriverのSCore7 Beta1への対応について
ご助言いただき，ありがとうございました。

今回，SCore7 Beta2を導入しようと考え，ダウンロードページの
tar.gz file contains the ALL SCore x86_64 binary rpms for CentOS 5
からダウンロードしたrpmを用い以下のコマンドでインストールを試みました。

# sh ./bininstall -server
# sh ./bininstall -comp

しかし，Beta1のパッケージと競合していて失敗しました。
そこで，--forceオプションを付加してインストールを行いました。
その後，

$ scout -g pcc

を実行したところ以下のようなエラーが発生し完了できませんでした。
(pccは全ノードが含まれているグループです。）

WINDUP.EXE ＠ scoreheadnode#19244:ERROR: windup_accept() at windup.c:238: Waiting
 response from score01.scorepccluster.org timed out.

pmx_ethernet_loader.koは以前修正したものを使用しています。

この問題にはどのように対処すればよいでしょうか？
よろしくお願いします。

-- 
佐賀大学大学院工学系研究科
博士前期課程電気電子工学専攻
計算機応用工学研究室

08534026 本田 晃平
honda ＠ ace.ec.saga-u.ac.jp


From kameyama ＠ pccluster.org  Fri Jun 12 09:13:56 2009
From: kameyama ＠ pccluster.org (Kameyama Toyohisa)
Date: Fri, 12 Jun 2009 09:13:56 +0900
Subject: [SCore-users-jp]
	=?ISO-2022-JP?B?U0NvcmU3GyRCJE4bKEJCZXRhMRskQiQrGyhC?=
	=?ISO-2022-JP?B?GyRCJGkbKEJCZXRhMhskQiRYJE4wXDlUJEskRCQkJEYbKEI=?=
In-Reply-To: <20090611205705.4014d1e0.honda@ace.ec.saga-u.ac.jp>
References: <20090611205705.4014d1e0.honda@ace.ec.saga-u.ac.jp>
Message-ID: <4A319DC4.7030308@pccluster.org>

亀山です.

Kohei HONDA Wrote:
> $ scout -g pcc
> 
> を実行したところ以下のようなエラーが発生し完了できませんでした。
> (pccは全ノードが含まれているグループです。）
> 
> WINDUP.EXE ＠ scoreheadnode#19244:ERROR: windup_accept() at windup.c:238: Waiting
>  response from score01.scorepccluster.org timed out.

scout のとき使用するコマンドの default が rsh から ssh に変更したため
だと思います.
環境変数 SCORE_RSH を /usr/bin/rsh に設定してみてください.

Kameyama Toyohisa


From honda ＠ ace.ec.saga-u.ac.jp  Fri Jun 12 20:49:33 2009
From: honda ＠ ace.ec.saga-u.ac.jp (Kohei HONDA)
Date: Fri, 12 Jun 2009 20:49:33 +0900
Subject: [SCore-users-jp] =?ISO-2022-JP?B?U0NvcmU3GyRCJE4bKEJCZXRhMQ==?=
	=?ISO-2022-JP?B?GyRCJCskaRsoQkJldGEyGyRCJFgkTjBcOVQkSyREJCQkRhsoQg==?=
In-Reply-To: <4A319DC4.7030308@pccluster.org>
References: <20090611205705.4014d1e0.honda@ace.ec.saga-u.ac.jp>
	<4A319DC4.7030308@pccluster.org>
Message-ID: <20090612204933.79e41259.honda@ace.ec.saga-u.ac.jp>

佐賀大学の本田です。

亀山様ご回答ありがとうございます。
 
> scout のとき使用するコマンドの default が rsh から ssh に変更したため
> だと思います.
> 環境変数 SCORE_RSH を /usr/bin/rsh に設定してみてください.

この設定を行ったところ，compute hostではscoutコマンドで
ホストグループの指定を行うことができるようになりました。
しかし，server host兼compute hostを含めてホストグループの
指定を行うと，以前と同様に

$ scout -g 0_1
WINDUP.EXE ＠ scoreheadnode#12082:ERROR: windup_accept() at windup.c:238: Waiting response from scoreheadnode.scorepccluster.org timed out.
scoreheadnode.scorepccluster.org: Connection refused

上記のようなエラーが発生してしまいます。
server hostには，server host・compute hostから
rshでログインできることは確認しています。

また，compute host2台でホストグループを指定し，mpiプログラムを投入すると，

$ scrun -nodes=1 ./a.out 
SCORED.EXE ＠ score01#8366:ERROR: open_pmx_context() at mpcrt.c:138: Unable to add 'realtek' network device: No such file or directory
SCORED.EXE ＠ score02#7976:ERROR: open_pmx_context() at mpcrt.c:138: Unable to add 'realtek' network device: No such file or directory
SCOUT(score02): Process 7976 exited with a non-zero exit code (9).

上記のエラーが発生します。
a.outはmpiハローワールドです。
scorehosts.dbには，

realtek type=ethernet channel=0 netdev=eth0

と指定しています。

上記のエラーに関してご助力お願いします。

-- 
佐賀大学大学院工学系研究科
博士前期課程電気電子工学専攻
計算機応用工学研究室

08534026 本田 晃平
honda ＠ ace.ec.saga-u.ac.jp


From kameyama ＠ pccluster.org  Mon Jun 15 09:35:27 2009
From: kameyama ＠ pccluster.org (Kameyama Toyohisa)
Date: Mon, 15 Jun 2009 09:35:27 +0900
Subject: [SCore-users-jp]
	=?ISO-2022-JP?B?U0NvcmU3GyRCJE4bKEJCZXRhMRskQiQrGyhC?=
	=?ISO-2022-JP?B?GyRCJGkbKEJCZXRhMhskQiRYJE4wXDlUJEskRCQkJEYbKEI=?=
In-Reply-To: <20090612204933.79e41259.honda@ace.ec.saga-u.ac.jp>
References: <20090611205705.4014d1e0.honda@ace.ec.saga-u.ac.jp>	<4A319DC4.7030308@pccluster.org>
	<20090612204933.79e41259.honda@ace.ec.saga-u.ac.jp>
Message-ID: <4A35974F.1010204@pccluster.org>

亀山です.

Kohei HONDA Wrote:
>> scout のとき使用するコマンドの default が rsh から ssh に変更したため
>> だと思います.
>> 環境変数 SCORE_RSH を /usr/bin/rsh に設定してみてください.
> 
> この設定を行ったところ，compute hostではscoutコマンドで
> ホストグループの指定を行うことができるようになりました。
> しかし，server host兼compute hostを含めてホストグループの
> 指定を行うと，以前と同様に
> 
> $ scout -g 0_1
> WINDUP.EXE ＠ scoreheadnode#12082:ERROR: windup_accept() at windup.c:238: Waiting response from scoreheadnode.scorepccluster.org timed out.
> scoreheadnode.scorepccluster.org: Connection refused
> 
> 上記のようなエラーが発生してしまいます。
> server hostには，server host・compute hostから
> rshでログインできることは確認しています。

compute host から scoreheadnode に rsh できるかどうか確認してください.
scoreheadnode に NIC が 2 枚以上ついていて, scoreheadnode が外部
NIC に対する名前であるとき, compute host から scoreheadnode への
rsh ができないかも知れません.

> また，compute host2台でホストグループを指定し，mpiプログラムを投入すると，
> 
> $ scrun -nodes=1 ./a.out 
> SCORED.EXE ＠ score01#8366:ERROR: open_pmx_context() at mpcrt.c:138: Unable to add 'realtek' network device: No such file or directory
> SCORED.EXE ＠ score02#7976:ERROR: open_pmx_context() at mpcrt.c:138: Unable to add 'realtek' network device: No such file or directory
> SCOUT(score02): Process 7976 exited with a non-zero exit code (9).
> 
> 上記のエラーが発生します。
> a.outはmpiハローワールドです。

環境変数 SCBDSERV は何になっているでしょうか?

Kameyama Toyohisa


From yukio.yamaishi ＠ gmail.com  Tue Jun 16 19:08:35 2009
From: yukio.yamaishi ＠ gmail.com (Yukio Yamaishi)
Date: Tue, 16 Jun 2009 19:08:35 +0900
Subject: [SCore-users-jp] =?iso-2022-jp?b?TVBJGyRCJEskRCQkJEYbKEI=?=
Message-ID: <12654dd10906160308r7f5c26a4m10ac706e044acf0a@mail.gmail.com>

皆様

はじめまして、山石と申します。

並列処理のド素人なので、初歩的な質問が多く、大変恐縮でございます。
現在WRFと呼ばれる気象モデルを動かしているが、MPIを使った並列について、
ご教授をいただければと思います。

各ノード2 CPU（実際はintel core 2）、4GBメモリー、合計8ノード、intel compiler 10、
OpenMPIおよびMPICHの環境です。


1. 例えばある領域に対して、予報計算を行うと、
"mpi -np N a.out"
       N : 5-16の場合はちゃんと計算が終了する。
       N: 1-2の場合も問題ない（core 2なので、実際この場合は１ノードのみ）
  N:   3-4の場合は問題あり。

mpirun noticed that job rank 2 with PID 3879 on node host-0-1 exited on
signal 11 (Segmentation fault).
1 additional process aborted (not shown)

   .bashrcに対して、ulimit -s unlimited や ulimit -s 819200000と設定してあります。

質問1: N: 3-4の設定に対して、問題サイズが大きすぎて解けないから、上記エラーになったのでしょうか？
    質問2：N:1-2では（実際1ノード）解けて、N:3-4なら解けない。5-16ならまた解けるという現象について、
どう解釈すれば宜しいのでしょうか？

関係あるかどうかは分かりませんが、例えば予報計算の領域を大きくすると、
N:1-2, N:16なら解けるが、それ以外は上記エラーが出力されます。


2. MPIに関するチューニングはどうすればいいのでしょう？

WRF本体にソースコードに手を入れることはできません。例えば mpirun などのコマンドを実行する際に、
送受信サイズを変更してみたりすることはできないのでしょうか？

ほかに何か触れるところはあるのでしょうか？


以上です。よろしくお願い致します。

-------------- next part --------------
HTMLの添付ファイルを保管しました...
URL: <http://new1.pccluster.org/pipermail/score-users-jp/attachments/20090616/ca405151/attachment.html>

From kameyama ＠ pccluster.org  Wed Jun 17 10:01:33 2009
From: kameyama ＠ pccluster.org (Kameyama Toyohisa)
Date: Wed, 17 Jun 2009 10:01:33 +0900
Subject: [SCore-users-jp] =?ISO-2022-JP?B?TVBJGyRCJEskRCQkJEYbKEI=?=
In-Reply-To: <12654dd10906160308r7f5c26a4m10ac706e044acf0a@mail.gmail.com>
References: <12654dd10906160308r7f5c26a4m10ac706e044acf0a@mail.gmail.com>
Message-ID: <4A38406D.9030801@pccluster.org>

亀山です.

WRF は見ていませんが...

Yukio Yamaishi Wrote:
> 1. 例えばある領域に対して、予報計算を行うと、
> "mpi -np N a.out"
>        N : 5-16の場合はちゃんと計算が終了する。
>        N: 1-2の場合も問題ない（core 2なので、実際この場合は１ノードのみ）
>   N:   3-4の場合は問題あり。
> 
> mpirun noticed that job rank 2 with PID 3879 on node host-0-1 exited on
> signal 11 (Segmentation fault).
> 1 additional process aborted (not shown)
> 
>    .bashrcに対して、ulimit -s unlimited や ulimit -s 819200000と設定してあります。
> 
> 質問1: N: 3-4の設定に対して、問題サイズが大きすぎて解けないから、上記エラーになったのでしょうか？
>     質問2：N:1-2では（実際1ノード）解けて、N:3-4なら解けない。5-16ならまた解けるという現象について、
> どう解釈すれば宜しいのでしょうか？

host をまたがると, ホスト間通信のためのリソースが必要になりますが,
1 process 2 GB で動いているのですから, 3 process でだけ動かない
のでしたらともかく, 4 process で動かないのはおかしいような...

3 host で 3 プロセス動かすとか, 4 host で 4 process 動かす
とかすれば問題サイズの問題かどうか切り分けられると思います.

その前に debugger を起動するようにしてどこで segmentation fault
を起こしているか確認するのが先でしょうけど...

> 2. MPIに関するチューニングはどうすればいいのでしょう？
> 
> WRF本体にソースコードに手を入れることはできません。例えば mpirun などのコマンドを実行する際に、
> 送受信サイズを変更してみたりすることはできないのでしょうか？
> 
> ほかに何か触れるところはあるのでしょうか？

これは, 使用する mpi の種類と configuration に依存します.
openmpi でしたら, run-time tuning FAQ というのがあります.
    http://www.open-mpi.org/faq/?category=tuning

Kameyama Toyohisa


From yukio.yamaishi ＠ gmail.com  Wed Jun 17 16:09:11 2009
From: yukio.yamaishi ＠ gmail.com (Yukio Yamaishi)
Date: Wed, 17 Jun 2009 16:09:11 +0900
Subject: =?ISO-2022-JP?B?UmU6IFtTQ29yZS11c2Vycy1qcF0gTVBJGyRCJEskRCQkJEYbKEI=?=
In-Reply-To: <4A38406D.9030801@pccluster.org>
References: <12654dd10906160308r7f5c26a4m10ac706e044acf0a@mail.gmail.com>
	<4A38406D.9030801@pccluster.org>
Message-ID: <12654dd10906170009w3e274345k8cec40c52992eb31@mail.gmail.com>

亀山様

ご返信、ありがとうございます。

ためしにopenmpi-default-hostfileに対して、1ノード１CPUと定義してみました。

#cat openmpi-default-hostfile
server cpu=1
host-0-0 cpu=1
host-0-1 cpu=1
     ;;
     ;;
host-0-6 cpu=1

mpirun -n N wrf.exeについて、

N=1 は成功、N=2-5,7は失敗、N=6, 8は成功


この問題サイズなら、そもそも6以上でないと解けないと言う意味でしょうか？
そうであれば、なぜN=1は成功するか？

なぜ7は失敗するのでしょうか？そもそも、奇数はだめ？

よろしくお願い致します。

山石


よろしくお願い致します。

2009/6/17 Kameyama Toyohisa <kameyama ＠ pccluster.org>

> 亀山です.
>
> WRF は見ていませんが...
>
> Yukio Yamaishi Wrote:
> > 1. 例えばある領域に対して、予報計算を行うと、
> > "mpi -np N a.out"
> >        N : 5-16の場合はちゃんと計算が終了する。
> >        N: 1-2の場合も問題ない（core 2なので、実際この場合は１ノードのみ）
> >   N:   3-4の場合は問題あり。
> >
> > mpirun noticed that job rank 2 with PID 3879 on node host-0-1 exited on
> > signal 11 (Segmentation fault).
> > 1 additional process aborted (not shown)
> >
> >    .bashrcに対して、ulimit -s unlimited や ulimit -s 819200000と設定してあります。
> >
> > 質問1: N: 3-4の設定に対して、問題サイズが大きすぎて解けないから、上記エラーになったのでしょうか？
> >     質問2：N:1-2では（実際1ノード）解けて、N:3-4なら解けない。5-16ならまた解けるという現象について、
> > どう解釈すれば宜しいのでしょうか？
>
> host をまたがると, ホスト間通信のためのリソースが必要になりますが,
> 1 process 2 GB で動いているのですから, 3 process でだけ動かない
> のでしたらともかく, 4 process で動かないのはおかしいような...
>
> 3 host で 3 プロセス動かすとか, 4 host で 4 process 動かす
> とかすれば問題サイズの問題かどうか切り分けられると思います.
>
> その前に debugger を起動するようにしてどこで segmentation fault
> を起こしているか確認するのが先でしょうけど...
>
> > 2. MPIに関するチューニングはどうすればいいのでしょう？
> >
> > WRF本体にソースコードに手を入れることはできません。例えば mpirun などのコマンドを実行する際に、
> > 送受信サイズを変更してみたりすることはできないのでしょうか？
> >
> > ほかに何か触れるところはあるのでしょうか？
>
> これは, 使用する mpi の種類と configuration に依存します.
> openmpi でしたら, run-time tuning FAQ というのがあります.
>    http://www.open-mpi.org/faq/?category=tuning
>
> Kameyama Toyohisa
>
>

-------------- next part --------------
HTMLの添付ファイルを保管しました...
URL: <http://new1.pccluster.org/pipermail/score-users-jp/attachments/20090617/9a4fcfb1/attachment.html>

From kameyama ＠ pccluster.org  Thu Jun 18 13:35:19 2009
From: kameyama ＠ pccluster.org (Kameyama Toyohisa)
Date: Thu, 18 Jun 2009 13:35:19 +0900
Subject: [SCore-users-jp] =?ISO-2022-JP?B?TVBJGyRCJEskRCQkJEYbKEI=?=
In-Reply-To: <12654dd10906170009w3e274345k8cec40c52992eb31@mail.gmail.com>
References: <12654dd10906160308r7f5c26a4m10ac706e044acf0a@mail.gmail.com>	
	<4A38406D.9030801@pccluster.org>
	<12654dd10906170009w3e274345k8cec40c52992eb31@mail.gmail.com>
Message-ID: <4A39C407.5090200@pccluster.org>

亀山です.

Yukio Yamaishi Wrote:
> ためしにopenmpi-default-hostfileに対して、1ノード１CPUと定義してみました。

ちなみに, openmpi の mpirun には -bynode というオプションがあります.

> mpirun -n N wrf.exeについて、
> 
> N=1 は成功、N=2-5,7は失敗、N=6, 8は成功
> 
> 
> この問題サイズなら、そもそも6以上でないと解けないと言う意味でしょうか？
> そうであれば、なぜN=1は成功するか？

前は N=3, N=4 のとき, 前回の倍のメモリが使用可能なはずで,
それでも失敗していて, 今回 N=5, N=7 でも失敗したのですから,
原因はメモリ不足のためではなさそうです.

    http://blog.livedoor.jp/rootan2007/archives/51117338.html
によると

    Open MPIの場合には、WRFのコンパイル時にconfigureに "-xT " 等の
    Core2系(i586やi686系)専用のOptimizeは付けない。
    付けると、コンパイルは成功するが、実行時にSegmentation Errorが
    生じる事がある。

    mpirunを行った時にエラーが出る場合は、" --debug-daemons" のオプションを
    付けて実行することで、エラーの詳細を見ることができる。

と. 書かれています. (これが正しいかどうかは分かりませんが...)

ちなみに, このページのコメント 4 には

    また、Core2 Quadの場合にはモデルにもよりますが、メモリバスの帯域問題で
    4スレッド使用して計算するよりも、3スレッド使用の方が計算が
    速くなることがあります。

と, ありますので, N=3 でも動いているようです.

Kameyama Toyohisa