[SCore-users-jp] [54] MTMI: fatal error (0x1): score_attach_network() failed: 12 <13> SCORE: Program signaled (Aborted).について

鈴木 陽介 yosukeys @ yahoo.co.jp
2012年 7月 5日 (木) 17:50:10 JST


竈山様
神奈川大学 鈴木陽介と申します

以前、SCore Release 7.0.1Bataの構築の際、
お世話になったものです。
何とか動くようになりました。
その際はありがとうございました。


さて、今回の質問ですが、

SCore Release 7.0.1Bata環境で、
サーバx1台計算ホストx16台、を定義したつもりです。
うまくいきません。どのように切り分けたらよいのかわかりません。
ご教授ください。よろしくお願いします。

今回も前回同様、http://www.pccluster.org/score_doc/score-7.0.1/SetupSCore.txt
を参考にして、定義しました。

必要な設定を完了後、以下の手順でコマンド
を実行すると  -node=4x4 まではうまくいきます。

具体は、以下のコマンドを実行すると
# scout -g machinefile
#mpicc hello.c
#scrun -group=machinefile -node=4x4 -network=ethernet ./a.out | sort
SCore (7.0.1) Connected
SCORE{1} 16 nodes (4x4) ready.
Hello !! from host001.pccluster.org @ 0/16
Hello !! from host001.pccluster.org @ 1/16
Hello !! from host001.pccluster.org @ 2/16
Hello !! from host001.pccluster.org @ 3/16
Hello !! from host002.pccluster.org @ 4/16
Hello !! from host002.pccluster.org @ 5/16
Hello !! from host002.pccluster.org @ 6/16
Hello !! from host002.pccluster.org @ 7/16
Hello !! from host003.pccluster.org @ 10/16
Hello !! from host003.pccluster.org @ 11/16
Hello !! from host003.pccluster.org @ 8/16
Hello !! from host003.pccluster.org @ 9/16
Hello !! from host004.pccluster.org @ 12/16
Hello !! from host004.pccluster.org @ 13/16
Hello !! from host004.pccluster.org @ 14/16
Hello !! from host004.pccluster.org @ 15/16

4台まで応答します。

しかし、 -node=16x4 で実行すると、エラーになってしまいます。
また、 -node=5x4 で実行でも、エラーになってしまいます。

host005からhost016が応答しません。

#scout -g machinefile
SCOUT: session started.
# mpicc hello.c
# scrun -group=machinefile -node=16x4 -network=ethernet ./a.out

SCore (7.0.1) Connected
SCORE{1} 64 nodes (16x4) ready.
[54] MTMI: fatal error (0x1): score_attach_network() failed: 12
<13> SCORE: Program signaled (Aborted).

ただし、マシンファイルに定義してある計算ホストは
以下のとおり、host001〜host016の16台あります。

どうして、SCORE{1} 64 nodes (16x4) readyであるのに.
[54] MTMI: fatal error (0x1): になってしまうのしょうか?
追加の設定が必要でしょうか?


設定の過程で、host0xx.pccluster.org: OK
とOKの応答も確認しています。

参考までに、設定した内容を以下に付けておきます。

[root @ server3 sc01]# . /etc/profile.d/score.sh
[root @ server3 sc01]# sceptic -g machinefile -v
host014.pccluster.org: OK
host013.pccluster.org: OK
host006.pccluster.org: OK
host015.pccluster.org: OK
host004.pccluster.org: OK
host011.pccluster.org: OK
host010.pccluster.org: OK
host012.pccluster.org: OK
host003.pccluster.org: OK
host008.pccluster.org: OK
host007.pccluster.org: OK
host001.pccluster.org: OK
host016.pccluster.org: OK
host005.pccluster.org: OK
host009.pccluster.org: OK
host002.pccluster.org: OK

[root @ server3 ~]# cd /home/sc01

[root @ server3 sc01]# ls -l machinefile
-rw-r--r-- 1 root root 352  2月  4  2011 machinefile

[root @ server3 sc01]# ls -l machinefile
-rw-r--r-- 1 root root 352  2月  4  2011 machinefile
[root @ server3 sc01]# cat machinefile
host001.pccluster.org
host002.pccluster.org
host003.pccluster.org
host004.pccluster.org
host005.pccluster.org
host006.pccluster.org
host007.pccluster.org
host008.pccluster.org
host009.pccluster.org
host010.pccluster.org
host011.pccluster.org
host012.pccluster.org
host013.pccluster.org
host014.pccluster.org
host015.pccluster.org
host016.pccluster.org


[root @ server3 sc01]# ls -l hello.c
-rw-r--r-- 1 root root 460  7月  5 14:49 hello.c

[root @ server3 sc01]# vi hello.c

#include <stdio.h>
    #include <mpi.h>
    int main(int argc, char **argv) {
        char    name[MPI_MAX_PROCESSOR_NAME];
        int     nprocs, procno, len;

        MPI_Init( &argc, &argv );
        MPI_Comm_size( MPI_COMM_WORLD, &nprocs );
        MPI_Comm_rank( MPI_COMM_WORLD, &procno );
        MPI_Get_processor_name( name, &len );
        name[len] = '\0';
        printf( "Hello !! from %s@%d/%d\n", name, procno, nprocs );
        MPI_Barrier( MPI_COMM_WORLD );
        MPI_Finalize();
        return( 0 );
    }


[root @ server3 sc01]# bash
[root @ server3 sc01]# export SCORE_RSH=rsh

※sshではなく、export SCORE_RSH=rsh で指定すること

[root @ server3 sc01]# . /etc/profile.d/score.sh
[root @ server3 sc01]# sceptic -g machinefile -v
host014.pccluster.org: OK
host013.pccluster.org: OK
host006.pccluster.org: OK
host015.pccluster.org: OK
host004.pccluster.org: OK
host011.pccluster.org: OK
host010.pccluster.org: OK
host012.pccluster.org: OK
host003.pccluster.org: OK
host008.pccluster.org: OK
host007.pccluster.org: OK
host001.pccluster.org: OK
host016.pccluster.org: OK
host005.pccluster.org: OK
host009.pccluster.org: OK
host002.pccluster.org: OK
All host responding.

[root @ server3 sc01]# bash
[root @ server3 sc01]# . /etc/profile.d/score.sh
[root @ server3 sc01]# rsh-all -q -s -P -g machinefile uptime 2> /dev/null

 14:53:10 up 37 days, 22:17,  1 user,  load average: 0.00, 0.00, 0.00
 14:53:10 up 37 days, 22:17,  0 users,  load average: 0.00, 0.00, 0.00
 14:53:10 up 37 days, 22:17,  0 users,  load average: 0.02, 0.01, 0.00
 14:53:10 up 37 days, 22:16,  0 users,  load average: 0.00, 0.00, 0.00
 14:53:11 up 37 days, 22:17,  0 users,  load average: 0.00, 0.00, 0.00
 13:44:11 up 37 days, 22:16,  0 users,  load average: 0.00, 0.00, 0.00
 13:52:58 up 37 days, 22:16,  0 users,  load average: 0.00, 0.00, 0.00
 13:46:37 up 37 days, 22:16,  0 users,  load average: 0.00, 0.00, 0.00
 14:53:11 up 37 days, 22:16,  0 users,  load average: 0.00, 0.00, 0.00
 14:51:50 up 37 days, 22:16,  0 users,  load average: 0.00, 0.00, 0.00
 13:52:55 up 37 days, 22:16,  0 users,  load average: 0.00, 0.00, 0.00
 14:53:05 up 37 days, 22:16,  0 users,  load average: 0.00, 0.00, 0.00
 14:52:51 up 37 days, 22:16,  0 users,  load average: 0.00, 0.00, 0.00
 14:54:20 up 37 days, 22:16,  0 users,  load average: 0.00, 0.00, 0.00
 14:53:11 up 37 days, 22:16,  0 users,  load average: 0.00, 0.00, 0.00
 14:54:02 up 37 days, 22:16,  0 users,  load average: 0.00, 0.00, 0.00

[root @ server3 sc01]# bash
\root @ server3 sc01]# rsh-all -q -s -P -g machinefile /opt/score/sbin/scbdrec 2>
>             /dev/null > /opt/score/etc/scorehosts.db


[root @ server3 sc01]# reboot

Broadcast message from root (pts/2) (Thu Jul  5 14:54:26 2012):
The system is going down for reboot NOW!
[root @ server3 sc01]# Connection to 192.168.0.203 closed by remote host.
Connection to 192.168.0.203 closed.


[root @ server3 sc01]# scout -g machinefile

SCOUT: session started.

[root @ server3 sc01]# mpicc hello.c

[root @ server3 sc01]# scrun -group=machinefile -node=4x4 -network=ethernet ./a.out | sort
SCore (7.0.1) Connected
SCORE{1} 16 nodes (4x4) ready.
Hello !! from host001.pccluster.org @ 0/16
Hello !! from host001.pccluster.org @ 1/16
Hello !! from host001.pccluster.org @ 2/16
Hello !! from host001.pccluster.org @ 3/16
Hello !! from host002.pccluster.org @ 4/16
Hello !! from host002.pccluster.org @ 5/16
Hello !! from host002.pccluster.org @ 6/16
Hello !! from host002.pccluster.org @ 7/16
Hello !! from host003.pccluster.org @ 10/16
Hello !! from host003.pccluster.org @ 11/16
Hello !! from host003.pccluster.org @ 8/16
Hello !! from host003.pccluster.org @ 9/16
Hello !! from host004.pccluster.org @ 12/16
Hello !! from host004.pccluster.org @ 13/16
Hello !! from host004.pccluster.org @ 14/16
Hello !! from host004.pccluster.org @ 15/16

以 上










SCore-users-jp メーリングリストの案内