[SCore-users-jp] SCore7.0.1で結果出力後にプロンプトが戻ってこない現象について

古田 智 s.furuta @ jp.fujitsu.com
2011年 6月 28日 (火) 11:57:29 JST


富士通)古田と申します。

SCore7.0.1を使用して以下のプログラムを実行しています。


    #include <stdio.h>
    #include <mpi.h>
    int main(int argc, char **argv) {
        char    name[MPI_MAX_PROCESSOR_NAME];
        int     nprocs, procno, len;

        MPI_Init( &argc, &argv );
        MPI_Comm_size( MPI_COMM_WORLD, &nprocs );
        MPI_Comm_rank( MPI_COMM_WORLD, &procno );
        MPI_Get_processor_name( name, &len );
        name[len] = '\0';
        printf( "Hello !! from %s@%d/%d\n", name, procno, nprocs );
        MPI_Barrier( MPI_COMM_WORLD );
        MPI_Finalize();
        return( 0 );
    }

上記のプログラムをgccでコンパイルし、実行モジュールをhello2として
scrun -nodes=3x8 -groups=./hosts -network=ethernet ./hello2
として実行すると、結果出力後にプロンプトが戻ってこない現象が頻繁に
発生します。

発生した際に、計算ノードではhello2のプロセスが残っており、gdbで
attachすると以下のような情報は獲得できました。

(gdb) where
#0  0x00002b443d484808 in comp_receive (pmc=0x2b443ecd9000,
    bufp=0x7fff5cd6f950, sizep=0x7fff5cd6f948, descp=0x7fff5cd6f938)
    at ../composite.c:2560
#1  pmxReceive (pmc=0x2b443ecd9000, bufp=0x7fff5cd6f950, sizep=0x7fff5cd6f948,
    descp=0x7fff5cd6f938) at ../composite.c:2650
#2  0x00002b443d0418ec in MTMIT_BT_SCore_Recv (buf=0x7fff5cd6f950,
    len=0x7fff5cd6f948, desc=0x7fff5cd6f8c8)
    at ../../../libmtmi.work/transport/score/score.c:139
#3  0x00002b443d03bc36 in MTMIT_BT_Progress (dev=0x2b443d24aae0,
    handle=<value optimized out>, etype=<value optimized out>,
    may_block=1557592264) at ../../libmtmi.work/common/bttool.c:247
#4  0x00002b443d03ac55 in MTMIP_WaitEvent ()
    at ../../libmtmi.work/common/core.c:393
#5  MTMI_WaitEvent () at ../../libmtmi.work/common/core.c:441
#6  0x00002b443cd7f657 in MPID_MTMI_progress ()
   from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib
/libmpich.so.1.2
#7  0x00002b443cd7f7cc in MPID_Progress_wait ()
   from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib
/libmpich.so.1.2
#8  0x00002b443cd72af4 in MPIC_Wait ()
   from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib
/libmpich.so.1.2
#9  0x00002b443cd73b0f in MPIC_Sendrecv ()
   from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib
/libmpich.so.1.2
#10 0x00002b443cd40069 in MPIR_Barrier ()
   from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib
/libmpich.so.1.2
#11 0x00002b443cd40556 in PMPI_Barrier ()
   from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib
/libmpich.so.1.2
#12 0x000000000040096b in main ()
(gdb) quit

何が原因かお分かりになりますでしょうか。

以上、よろしくお願い申し上げます。
--
古田 智(s.furuta @ jp.fujitsu.com)




SCore-users-jp メーリングリストの案内