[SCore-users-jp] MPIについて

Kameyama Toyohisa kameyama @ pccluster.org
2009年 6月 17日 (水) 10:01:33 JST


亀山です.

WRF は見ていませんが...

Yukio Yamaishi Wrote:
> 1. 例えばある領域に対して、予報計算を行うと、
> "mpi -np N a.out"
>        N : 5-16の場合はちゃんと計算が終了する。
>        N: 1-2の場合も問題ない(core 2なので、実際この場合は1ノードのみ)
>   N:   3-4の場合は問題あり。
> 
> mpirun noticed that job rank 2 with PID 3879 on node host-0-1 exited on
> signal 11 (Segmentation fault).
> 1 additional process aborted (not shown)
> 
>    .bashrcに対して、ulimit -s unlimited や ulimit -s 819200000と設定してあります。
> 
> 質問1: N: 3-4の設定に対して、問題サイズが大きすぎて解けないから、上記エラーになったのでしょうか?
>     質問2:N:1-2では(実際1ノード)解けて、N:3-4なら解けない。5-16ならまた解けるという現象について、
> どう解釈すれば宜しいのでしょうか?

host をまたがると, ホスト間通信のためのリソースが必要になりますが,
1 process 2 GB で動いているのですから, 3 process でだけ動かない
のでしたらともかく, 4 process で動かないのはおかしいような...

3 host で 3 プロセス動かすとか, 4 host で 4 process 動かす
とかすれば問題サイズの問題かどうか切り分けられると思います.

その前に debugger を起動するようにしてどこで segmentation fault
を起こしているか確認するのが先でしょうけど...

> 2. MPIに関するチューニングはどうすればいいのでしょう?
> 
> WRF本体にソースコードに手を入れることはできません。例えば mpirun などのコマンドを実行する際に、
> 送受信サイズを変更してみたりすることはできないのでしょうか?
> 
> ほかに何か触れるところはあるのでしょうか?

これは, 使用する mpi の種類と configuration に依存します.
openmpi でしたら, run-time tuning FAQ というのがあります.
    http://www.open-mpi.org/faq/?category=tuning

Kameyama Toyohisa




SCore-users-jp メーリングリストの案内