[SCore-users-jp] MPIについて
Kameyama Toyohisa
kameyama @ pccluster.org
2009年 6月 17日 (水) 10:01:33 JST
亀山です.
WRF は見ていませんが...
Yukio Yamaishi Wrote:
> 1. 例えばある領域に対して、予報計算を行うと、
> "mpi -np N a.out"
> N : 5-16の場合はちゃんと計算が終了する。
> N: 1-2の場合も問題ない(core 2なので、実際この場合は1ノードのみ)
> N: 3-4の場合は問題あり。
>
> mpirun noticed that job rank 2 with PID 3879 on node host-0-1 exited on
> signal 11 (Segmentation fault).
> 1 additional process aborted (not shown)
>
> .bashrcに対して、ulimit -s unlimited や ulimit -s 819200000と設定してあります。
>
> 質問1: N: 3-4の設定に対して、問題サイズが大きすぎて解けないから、上記エラーになったのでしょうか?
> 質問2:N:1-2では(実際1ノード)解けて、N:3-4なら解けない。5-16ならまた解けるという現象について、
> どう解釈すれば宜しいのでしょうか?
host をまたがると, ホスト間通信のためのリソースが必要になりますが,
1 process 2 GB で動いているのですから, 3 process でだけ動かない
のでしたらともかく, 4 process で動かないのはおかしいような...
3 host で 3 プロセス動かすとか, 4 host で 4 process 動かす
とかすれば問題サイズの問題かどうか切り分けられると思います.
その前に debugger を起動するようにしてどこで segmentation fault
を起こしているか確認するのが先でしょうけど...
> 2. MPIに関するチューニングはどうすればいいのでしょう?
>
> WRF本体にソースコードに手を入れることはできません。例えば mpirun などのコマンドを実行する際に、
> 送受信サイズを変更してみたりすることはできないのでしょうか?
>
> ほかに何か触れるところはあるのでしょうか?
これは, 使用する mpi の種類と configuration に依存します.
openmpi でしたら, run-time tuning FAQ というのがあります.
http://www.open-mpi.org/faq/?category=tuning
Kameyama Toyohisa
SCore-users-jp メーリングリストの案内