RE: 【再送】RE: [SCore-users-jp] No PMX network is specified

Kazuhiro Shimada shimada @ kanto-gakuin.ac.jp
2009年 2月 18日 (水) 19:16:25 JST


ありがとうございます。関東学院の島田です。

> >> として host レコードに
> >>     comp0   ... network=ethernet
> >> を指定してください.
> >> scorehosts.db を使用しない場合は
> >>     scrun -group=machinefile,network=ethernet:eth2 ./a.out
> >> と指定してください.
> >
> > いずれの場合もコマンドラインには何も表示されず、コンピュートホストが
> 勝手に再起動してしまいました。
>
> 多分, PMX/Ethernet driver の bug だと思います.
> 再起動したホストの
>     /var/log/messages
> に何か error message は残っていないでしょうか?

残っていませんでした…。
Iptableが起動していたので切って、scorehosts.db を使用しないで、
scrun -group=machinefile,network=ethernet:eth2 ./a.out
を実行したところ、うまくいって、各ノードからHello!の表示が出ましたが、最後に
コマンドラインが表示されず、プログラムが完全に終了しませんでした。これについ
て、サーバーの/var/log/messagesを見たところ、以下のメッセージが延々と続いて
いました。
コンピュートホストの/var/log/messagesも同様でした。

Feb 18 15:56:05 s104-010 kernel: PMXEthernet: unavailable MSG(u:0 key:16
n:13 p: 1) len 64
Feb 18 15:56:05 s104-010 kernel: PMXEthernet: unavailable MSG(u:0 key:16
n:13 p: 5) len 64
Feb 18 15:56:05 s104-010 kernel: PMXEthernet: unavailable MSG(u:0 key:16
n:13 p: 1) len 80
Feb 18 15:56:05 s104-010 kernel: PMXEthernet: unavailable MSG(u:0 key:16
n:13 p: 5) len 80

> > Scrun -nodes=8 -group=machinefile,network=etherhxb ./a.out
> >
> > とすると、サーバー兼コンピュートホストで実行されてうまくいきました。
> >
> > Scrun -group=machinefile,network=etherhxb ./a.out
> >
> > として全ノードで実行させると、同じエラーが出てうまくいきませんでした。
> >
> > Scoreboardはサーバーのみで起動していればよろしいでしょうか。
>
> サーバのみの起動で良いはずですが...
> SCBDSERV に書かれたホスト名は正しいでしょうか?
> scoreboard に私用される port は compute host からアクセスできるように
> なっているでしょうか?
> (iptable などが動いていませんでしょうか?)
>
> # そもそも scoreboard は scrun 起動ホストでしか見ていないはずですが...
>
> 環境変数 SCORE_MESSAGE を ALL:3 にして動かして
> 出たメッセージをみれば何かわかるかも知れませんけど...

上で書きましたようにIptableが起動していたので切りました。

SCBDSERV=s104-010.shimada.labとなっています。
以下のように実行すると、サーバー兼コンピュートホストのs104-010で実行されて、
以下のようになります。

[root @ s104-010 ~]# scrun -nodes=2 -group=machinefile,network=etherhxb
./a.out
SCBDSERV: accept() failed.
SCore (7.0.0) Connected
SCORE{1} 2 nodes (1x2) ready.
Hello !! from s104-010.shimada.lab @ 0/2
Hello !! from s104-010.shimada.lab @ 1/2

/var/log/messagesには
Feb 18 17:59:16 s104-010 kernel: pmhxbgetaddrmulti(7ffffcf78290) error at
eth1 , dev=ffff8801ec6e7000 1002
Feb 18 17:59:16 s104-010 kernel: pmhxbgetaddrmulti(7ffffcf78290) error at
eth2 , dev=ffff8801ebd56000 1002
とメッセージが残ります。

Scoreboardが切れているので、起動しなおして、以下のように実行すると、
 [root @ s104-010 ~]# scrun -group=machinefile,network=etherhxb ./a.out
SCBDSERV: accept() failed.
SCore (7.0.0) Connected
SCORE{1} 16 nodes (2x8) ready.
[1] MTMI: fatal error (0x1): score_attach_network() failed: 22[3] MTMI:
fatal error (0x1): score_attach_network() failed: 22[10] MTMI: fatal error
(0x1): score_attach_network() failed: 22[9] MTMI: fatal error (0x1):
score_attach_network() failed: 22[11] MTMI: fatal error (0x1):
score_attach_network() failed: 22
<1> SCORE: Program signaled (Aborted).

と表示されて、/var/log/messagesには、
Feb 18 18:27:29 s104-010 kernel: pmhxbgetaddrmulti(7fffe6160100) error at
eth1 , dev=ffff8801ee950000 1002
Feb 18 18:27:29 s104-010 kernel: pmhxbgetaddrmulti(7fffe6160100) error at
eth2 , dev=ffff8800001f6000 1002
とメッセージが残ります。

で、環境変数 SCORE_MESSAGE を ALL:3 にして
[root @ s104-010 ~]# scrun -group=machinefile,network=etherhxb ./a.out
で得られたメッセージが添付のerrlogです。

よろしくお願い致します。


-------------- next part --------------
テキスト形式以外の添付ファイルを保管しました...
ファイル名: errLog.tar.gz
型:         application/x-gzip
サイズ:     74259 バイト
説明:       無し
URL:        <http://new1.pccluster.org/pipermail/score-users-jp/attachments/20090218/951e938b/attachment.gz>


SCore-users-jp メーリングリストの案内