【再送】RE: [SCore-users-jp] No PMX network is specified

Kameyama Toyohisa kameyama @ pccluster.org
2009年 2月 19日 (木) 13:53:30 JST


亀山です.

Kazuhiro Shimada Wrote:
> 残っていませんでした…。
> Iptableが起動していたので切って、scorehosts.db を使用しないで、
> scrun -group=machinefile,network=ethernet:eth2 ./a.out
> を実行したところ、うまくいって、各ノードからHello!の表示が出ましたが、最後に
> コマンドラインが表示されず、プログラムが完全に終了しませんでした。これについ
> て、サーバーの/var/log/messagesを見たところ、以下のメッセージが延々と続いて
> いました。
> コンピュートホストの/var/log/messagesも同様でした。

SCore では scout 間とかで IP 通信を行っているので,
iptable との共存は難しいと思います.
更に PMX での通信に ethernet を使う場合は IP でないパケットを
私用しているので, さらに困難に...
(多分, PMX/etherhxb は NIC driver から直接パケットを取ってくるので
動くかも知れませんが, PMX/ethernet は NIC driver をいじらなくても
使えるようにしたため, 通信できないと思います.)
ということで iptable は使用しないでください.

終了処理がうまくいっていないのは, 多分 bug だと思います.
とりあえず, ^C で終了させて使用してください.

> SCBDSERV=s104-010.shimada.labとなっています。
> 以下のように実行すると、サーバー兼コンピュートホストのs104-010で実行されて、
> 以下のようになります。
> 
> [root @ s104-010 ~]# scrun -nodes=2 -group=machinefile,network=etherhxb
> ./a.out
> SCBDSERV: accept() failed.
> SCore (7.0.0) Connected
> SCORE{1} 2 nodes (1x2) ready.
> Hello !! from s104-010.shimada.lab @ 0/2
> Hello !! from s104-010.shimada.lab @ 1/2
> 
> /var/log/messagesには
> Feb 18 17:59:16 s104-010 kernel: pmhxbgetaddrmulti(7ffffcf78290) error at
> eth1 , dev=ffff8801ec6e7000 1002
> Feb 18 17:59:16 s104-010 kernel: pmhxbgetaddrmulti(7ffffcf78290) error at
> eth2 , dev=ffff8801ebd56000 1002
> とメッセージが残ります。
> 
> Scoreboardが切れているので、起動しなおして、以下のように実行すると、
>  [root @ s104-010 ~]# scrun -group=machinefile,network=etherhxb ./a.out
> SCBDSERV: accept() failed.
> SCore (7.0.0) Connected
> SCORE{1} 16 nodes (2x8) ready.
> [1] MTMI: fatal error (0x1): score_attach_network() failed: 22[3] MTMI:
> fatal error (0x1): score_attach_network() failed: 22[10] MTMI: fatal error
> (0x1): score_attach_network() failed: 22[9] MTMI: fatal error (0x1):
> score_attach_network() failed: 22[11] MTMI: fatal error (0x1):
> score_attach_network() failed: 22
> <1> SCORE: Program signaled (Aborted).
> 
> と表示されて、/var/log/messagesには、
> Feb 18 18:27:29 s104-010 kernel: pmhxbgetaddrmulti(7fffe6160100) error at
> eth1 , dev=ffff8801ee950000 1002
> Feb 18 18:27:29 s104-010 kernel: pmhxbgetaddrmulti(7fffe6160100) error at
> eth2 , dev=ffff8800001f6000 1002
> とメッセージが残ります。

このメッセージ自体は無視してよさそうですが...

> で、環境変数 SCORE_MESSAGE を ALL:3 にして
> [root @ s104-010 ~]# scrun -group=machinefile,network=etherhxb ./a.out
> で得られたメッセージが添付のerrlogです。

どうも PMX/Etherhxb が 4 cpu しか対応していないようです.
とりあえずは,
    /opt/score/modules/include/pmx_etherhxb_dev.h
の
     #define N_CONTEXT               8
を
     #define N_CONTEXT               16
にして
    /opt/score/install/linux2.6
で
   ./install_modules
を実行して reboot すれば動くと思います.

Kameyama Toyohisa



SCore-users-jp メーリングリストの案内