[SCore-users-jp] SCore7.0.1で結果出力後にプロンプトが戻ってこない現象について

古田 智 s.furuta @ jp.fujitsu.com
2011年 6月 29日 (水) 19:48:29 JST


亀山様

古田です。
ご回答ありがとうございます。

> PMX/Ethernet の問題のような気はするのですが,
>      network=sctp
> と scto を使用した場合は動きますでしょうか?

hello プログラムをnetwork=sctpを使用して実行してみたところ
正常に結果が返ってきました。

しかし、
http://www.pccluster.org/pipermail/score-users-jp/2010-October/003609.html
にて報告されていたサンプルプログラムは、sctpを設定しても
動作しませんでした。

こちらの事情を補足いたしますと、最終的に動作させたいプログラムは
別にあるのですが、内容が複雑なため、簡単なサンプルをいくつか使用して
動作を検証しております。

上記のプログラムをf90でコンパイルし、実行モジュールをa.outとして
scrun -nodes=3x8 -groups=./hosts -network=sctp ./a.out
として実行すると、やはり結果出力後にプロンプトが戻ってこない現象が頻繁に
発生しました。

発生した際に、計算ノードではa.outのプロセスが残っていたのも同様でして、
gdbでattachすると以下のような情報が獲得できました。

(gdb) where
#0  0x000000304960ddcb in recvmsg () from /lib64/libpthread.so.0
#1  0x00002b1de95fffca in sctp_recvmsg () from /usr/lib64/libsctp.so.1
#2  0x00002b1de93e1a1f in PMX_sctp_receive (pmm=0xc18e2e0,
    bufp=0x7fff6fefdf90, sizep=0x7fff6fefdf88, descp=0x7fff6fefdf08)
    at ../sctp.c:968
#3  0x00002b1de77fc819 in comp_receive (pmc=0x2b1de92e8000,
    bufp=0x7fff6fefdf90, sizep=0x7fff6fefdf88, descp=0x7fff6fefdf78)
    at ../composite.c:2560
#4  pmxReceive (pmc=0x2b1de92e8000, bufp=0x7fff6fefdf90, sizep=0x7fff6fefdf88,
    descp=0x7fff6fefdf78) at ../composite.c:2650
#5  0x00002b1de73b98ec in MTMIT_BT_SCore_Recv (buf=0xfffffffffffffff5,
    len=0x0, desc=0xffffffffffffffff)
    at ../../../libmtmi.work/transport/score/score.c:139
#6  0x00002b1de73b3c36 in MTMIT_BT_Progress (dev=0x2b1de75c2ae0,
    handle=<value optimized out>, etype=<value optimized out>, may_block=-1)
    at ../../libmtmi.work/common/bttool.c:247
#7  0x00002b1de73b17be in MTMIP_WaitEvent (ytreq=178957248, st=0x7fff6fefe070,
    priv=0x7fff6fefe0a0) at ../../libmtmi.work/common/core.c:393
#8  MTMI_Wait (ytreq=178957248, st=0x7fff6fefe070, priv=0x7fff6fefe0a0)
    at ../../libmtmi.work/common/core.c:1220
#9  0x00002b1de70f6a06 in MPID_Recv ()
   from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib
/libmpich.so.1.2
#10 0x00002b1de710b4c7 in PMPI_Recv ()
   from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib
/libmpich.so.1.2
#11 0x00002b1de710c121 in pmpi_recv__ ()
   from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib
/libmpich.so.1.2
#12 0x0000000000400cab in MAIN__ ()
#13 0x0000000000400d4e in main ()
(gdb)

また、同じプログラムをethernetを指定して実行した場合も同様に停止いたしまして
gdb でattachすると以下のようになります。

(gdb) where
#0  MTMIT_BT_Progress (dev=0x2b698745fae0, handle=0x0, etype=0, may_block=1)
    at ../../libmtmi.work/common/bttool.c:235
#1  0x00002b698724e7be in MTMIP_WaitEvent (ytreq=103211264, st=0x7fffec3ed1a0,
    priv=0x7fffec3ed1d0) at ../../libmtmi.work/common/core.c:393
#2  MTMI_Wait (ytreq=103211264, st=0x7fffec3ed1a0, priv=0x7fffec3ed1d0)
    at ../../libmtmi.work/common/core.c:1220
#3  0x00002b6986f93a06 in MPID_Recv ()
   from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib
/libmpich.so.1.2
#4  0x00002b6986fa84c7 in PMPI_Recv ()
   from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib
/libmpich.so.1.2
#5  0x00002b6986fa9121 in pmpi_recv__ ()
   from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib
/libmpich.so.1.2
#6  0x0000000000400cab in MAIN__ ()
#7  0x0000000000400d4e in main ()
(gdb)

お忙しいところ申し訳ございませんが、何かアドバイス等
頂けると幸いです。

以上、よろしくお願いいたします。

(2011/06/28 18:50), Kameyama Toyohisa wrote:
> 亀屋まです.
> 
> (2011年06月28日 18:29), 古田 智 wrote:
>>> なんか MPI_Barrier が終わらないみたいですね...
>>> hello2 のプロセスは 24 個とも残っているのでしょうか?
>>>
>>
>> その時によりますが、だいたい2,3個残ります。
> 
> やはり MPI_barrier がきちんと動いていないような...
> 
> PMX/Ethernet の問題のような気はするのですが,
>      network=sctp
> と scto を使用した場合は動きますでしょうか?
> 
> Kameyama Toyohisa
> 
> 




SCore-users-jp メーリングリストの案内