[SCore-users-jp] SCore7 beta5における並列実行で停止する現象について教えてください

Hiroaki Shibata shibata.hiroaki @ jp.fujitsu.com
2010年 10月 22日 (金) 19:07:17 JST


富士通九州システムズ)柴田です。

SCore7 beta の環境での並列実行について、並列数を増やすと
実行が途中で停止する現象が発生し、調査をいたしております。
お手数をおかけいたしますが、現象の調査についてご助言をい
ただければ幸いです。

環境はSCore7 beta5 のソースをコンパイルしてインストールし
ております。また、NICドライバがigbで、インストール後にOSが
起動しなくなったので
/lib/modules/2.6.18-164.el5/extra/score+pm/igb_pmx.ko
を削除しています。

現象ですが、以下のようなプログラムをコンパイルして実行した場合に、
-------------------------------------------------
program main

  use mpi

  implicit none

  integer MYRANK, NPROC, IERR, DESTRANK, ISTAT(MPI_STATUS_SIZE)
  real*8 SBUF, RBUF

  call MPI_INIT( IERR )
  call MPI_COMM_SIZE( MPI_COMM_WORLD, NPROC, IERR )
  call MPI_COMM_RANK( MPI_COMM_WORLD, MYRANK, IERR )

  if(MYRANK == 0) then
    do DESTRANK=1, NPROC-1
        SBUF = DESTRANK
        call MPI_SEND(SBUF,1,MPI_REAL8,DESTRANK,0,MPI_COMM_WORLD,IERR)
    end do
  else
    call MPI_RECV(RBUF,1,MPI_REAL8,0,MPI_ANY_TAG,MPI_COMM_WORLD,ISTAT,IERR)
    write(6,200) MYRANK,RBUF
200 format(1h ,'RANK:',i2,' Received data:',f4.1)

  end if
  call MPI_FINALIZE(IERR)
  stop

end program main
-----------------------------------------------

-------------実行結果--------------------------
$ scrun -nodes=2x8 -group=./machinefile2_4 -network=ethernet ./test
SCore (7.Beta.5) Connected
SCORE{1} 16 nodes (2x8) ready.
 RANK: 8 Received data: 8.0
 RANK:10 Received data:10.0
 RANK:12 Received data:12.0
 RANK:11 Received data:11.0
 RANK:15 Received data:15.0
 RANK:14 Received data:14.0
 RANK: 1 Received data: 1.0
 RANK: 2 Received data: 2.0
 RANK: 4 Received data: 4.0
 RANK: 5 Received data: 5.0
 RANK: 7 Received data: 7.0
 RANK: 3 Received data: 3.0
 RANK: 6 Received data: 6.0
 RANK: 9 Received data: 9.0
-----------------------------------------------
上記のように、結果が全て出力されずに、停止した状態になります。
ctrl-Cで終了させることはできます。8並列までは特に問題なく実行され
ますが、16並列以上になると、この現象が発生します。

また、hello.cをコンパイルして実行した場合も8並列までは特に問題なく
動作するのですが、それ以上の並列数にすると、プロンプトが戻ってきま
せん。
-----------------実行結果-------------------------
$ scrun -nodes=2x8 -group=./machinefile2_4 -network=ethernet ./hello
SCore (7.Beta.5) Connected
SCORE{1} 16 nodes (2x8) ready.
Hello !! from pcc-comp03 @ 8/16
Hello !! from pcc-comp03 @ 9/16
Hello !! from pcc-comp03 @ 10/16
Hello !! from pcc-comp03 @ 11/16
Hello !! from pcc-comp03 @ 12/16
Hello !! from pcc-comp03 @ 13/16
Hello !! from pcc-comp02 @ 0/16
Hello !! from pcc-comp03 @ 14/16
Hello !! from pcc-comp02 @ 1/16
Hello !! from pcc-comp02 @ 2/16
Hello !! from pcc-comp02 @ 3/16
Hello !! from pcc-comp02 @ 4/16
Hello !! from pcc-comp02 @ 5/16
Hello !! from pcc-comp02 @ 6/16
Hello !! from pcc-comp03 @ 15/16
Hello !! from pcc-comp02 @ 7/16
-------------------------------------------------
たまに正常に戻る場合もありますが、ほぼ戻ってきません。

当初、beta4をバイナリインストールしたのですが、同様の現象が発生
したため、調査の段階で、beta5のバイナリインストール及びソースから
コンパイル、インストールと試してみたのですが、結果は同じでした。

並列数が少なければ動作するので、ネットワークの問題かと思いまして
igbのドライバの変更等も実施してみましたが、やはり同じです。
igb_pmx.koを削除してもethernet指定の場合は問題ないと考えてい
ましたが、これがまずいのでしょうか。

設定として疑ったほうが良い箇所がありましたらご教授いただけませんで
しょうか。


以上、よろしくお願いいたします。

---
柴田 裕昭(shibata.hiroaki @ jp.fujitsu.com)




SCore-users-jp メーリングリストの案内