[SCore-users-jp] SCore7.0.1で結果出力後にプロンプトが戻ってこない現象について
古田 智
s.furuta @ jp.fujitsu.com
2011年 6月 28日 (火) 11:57:29 JST
富士通)古田と申します。
SCore7.0.1を使用して以下のプログラムを実行しています。
#include <stdio.h>
#include <mpi.h>
int main(int argc, char **argv) {
char name[MPI_MAX_PROCESSOR_NAME];
int nprocs, procno, len;
MPI_Init( &argc, &argv );
MPI_Comm_size( MPI_COMM_WORLD, &nprocs );
MPI_Comm_rank( MPI_COMM_WORLD, &procno );
MPI_Get_processor_name( name, &len );
name[len] = '\0';
printf( "Hello !! from %s@%d/%d\n", name, procno, nprocs );
MPI_Barrier( MPI_COMM_WORLD );
MPI_Finalize();
return( 0 );
}
上記のプログラムをgccでコンパイルし、実行モジュールをhello2として
scrun -nodes=3x8 -groups=./hosts -network=ethernet ./hello2
として実行すると、結果出力後にプロンプトが戻ってこない現象が頻繁に
発生します。
発生した際に、計算ノードではhello2のプロセスが残っており、gdbで
attachすると以下のような情報は獲得できました。
(gdb) where
#0 0x00002b443d484808 in comp_receive (pmc=0x2b443ecd9000,
bufp=0x7fff5cd6f950, sizep=0x7fff5cd6f948, descp=0x7fff5cd6f938)
at ../composite.c:2560
#1 pmxReceive (pmc=0x2b443ecd9000, bufp=0x7fff5cd6f950, sizep=0x7fff5cd6f948,
descp=0x7fff5cd6f938) at ../composite.c:2650
#2 0x00002b443d0418ec in MTMIT_BT_SCore_Recv (buf=0x7fff5cd6f950,
len=0x7fff5cd6f948, desc=0x7fff5cd6f8c8)
at ../../../libmtmi.work/transport/score/score.c:139
#3 0x00002b443d03bc36 in MTMIT_BT_Progress (dev=0x2b443d24aae0,
handle=<value optimized out>, etype=<value optimized out>,
may_block=1557592264) at ../../libmtmi.work/common/bttool.c:247
#4 0x00002b443d03ac55 in MTMIP_WaitEvent ()
at ../../libmtmi.work/common/core.c:393
#5 MTMI_WaitEvent () at ../../libmtmi.work/common/core.c:441
#6 0x00002b443cd7f657 in MPID_MTMI_progress ()
from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib
/libmpich.so.1.2
#7 0x00002b443cd7f7cc in MPID_Progress_wait ()
from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib
/libmpich.so.1.2
#8 0x00002b443cd72af4 in MPIC_Wait ()
from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib
/libmpich.so.1.2
#9 0x00002b443cd73b0f in MPIC_Sendrecv ()
from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib
/libmpich.so.1.2
#10 0x00002b443cd40069 in MPIR_Barrier ()
from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib
/libmpich.so.1.2
#11 0x00002b443cd40556 in PMPI_Barrier ()
from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib
/libmpich.so.1.2
#12 0x000000000040096b in main ()
(gdb) quit
何が原因かお分かりになりますでしょうか。
以上、よろしくお願い申し上げます。
--
古田 智(s.furuta @ jp.fujitsu.com)
SCore-users-jp メーリングリストの案内