Re: [SCore-users-jp] SCOUTのテストについて

eiichi ooyama ooyama.eiichi @ gmail.com
2008年 5月 21日 (水) 13:45:25 JST


大山です。

ご返答ありがとうございます。
ポート番号を設定したところ、このテストについてはパスする事が出来ました。
ところが次のポイントツーポイントのテスト(rpmtestのテスト)で失敗してしまいます。
(以前のMLにあったようなタイムアウトではなく、glibcのエラーメッセージでした)


以下はその時のログなのですが、当方の環境では、
host1 10.13.13.1 (計算ホスト兼サーバ)
host2 10.13.13.2
host3 10.13.13.3
host4 10.13.13.4
となってまして、CentOS4.6(2.6.9-67.ELsmp) Athlon64 3600+です。

●1つ目のウィンドウ
[hoge @ host1 ~]$ rpmtest host2 ethernet -reply
connect to address 10.13.13.2: Connection refused
Trying krb4 rsh...
connect to address 10.13.13.2: Connection refused
trying normal rsh (/usr/bin/rsh)

●2つ目のウィンドウ
[hoge @ host1 ~]$ rpmtest host1 ethernet -dest 1 -ping
connect to address 10.13.13.1: Connection refused
Trying krb4 rsh...
connect to address 10.13.13.1: Connection refused
trying normal rsh (/usr/bin/rsh)
Ethernet PM context #0 information (unit 0)
 channel 0 descripter information
  rx_p=00000000, rx_c=00000000, rx_bp=00000000, rx_bc=00000000
  tx_p=00000001, tx_c=00000000, tx_bp=00000080, tx_bc=00000000

 channel 0 statistics information
  st_txmit=14211b01, st_rexmit=040953b3, st_xmit_ctl=1b000000
  st_xmit_ack=22901621 st_xmit_lost=14211b02, st_xmit_stop=040953b4
  st_xmit_err=0000009c, st_xmit_received=ff010201, st_rcv_valid=00000000
  st_rcv_ackonly=00000000, st_rcv_igonore=00000000, st_rcv_lose=00000270
  st_rcv_ov=00000000,st_rcv_ov=00000000
  st_rcv_stop=00000000, st_rcv_go=00000000
*** glibc detected *** double free or corruption (out): 0x00000000005f0d50
***


以前のメールでrpmtestでtimeoutというスレッドがにたような状況みたいに思われましたので、
そちらにあった亀山さんの質問について調べました。

1. rpm の install は
       ./bininstall -compute
   で行ったでしょうか?
=>ソースからのインストールですのでrpmは使ってません。

2. rpm -qa | grep score
   で score6.0.0-comp はでてきますでしょうか?
=>ありません。

3. /opt/score/6.0.0/modules
   はありますでしょうか?
=>あります。/opt/score/6.0.2/modules ですが。。

4. /lib/module/`uname -r`/extra/score+pm
   はありますでしょうか?
   その中に tg3_scorepm1.ko はありますでしょうか?
=>当方の環境が以下のようになっていまして、e1000_scorepm1.koができていて欲しいところだと思うのですが、
[hoge @ host1 ~]$ /opt/score/install/linux2.6/netdev -a
eth0 forcedeth
eth1 e1000
上記ディレクトリを見ますと、
[hoge @ host1 ~]$ ls /lib/modules/2.6.9-67.ELsmp/extra/score+pm/
e100_scorepm1.ko  pm_ethernet2.ko         pm_ethernet_loader.ko  pm_shmem.ko
infini_dev.ko     pm_ethernet2_mem.ko     pm_memory.ko           tg3_scorepm1.ko
infini_sm_dev.ko  pm_ethernet_dev_nkp.ko  pm_myrinet.ko
となっていまして、e1000関係のモジュールは出来ていませんでした。

以下はその他の状況です。
●/etc/modprobe.conf
alias eth0 forcedeth
alias eth1 e1000
alias scsi_hostadapter sata_nv
alias usb-controller ehci-hcd
alias usb-controller1 ohci-hcd

●/etc/pm_ethernet.conf
PM_ETHERNET_UNIT_ETH1=0

●/opt/score/etc/pm-ethernet.conf
unit 0
intreap 0
# maxnsend 0 - 32
# maxnsend 0
# backoff 1000 - 20000 (usec)
backoff 4800
# checksum (0 if off, 1 is on)
checksum 0
# PE    MAC address             base hostname           # comment
0       00:1B:21:14:B4:51       host1.nunmaecluster.com # ip=10.13.13.1 on eth1
1       00:1B:21:14:B3:C0       host2.nunmaecluster.com # ip=10.13.13.2 on eth1
2       00:1B:21:14:BC:71       host3.nunmaecluster.com # ip=10.13.13.3 on eth1
3       00:1B:21:16:90:22       host4.nunmaecluster.com # ip=10.13.13.4 on eth1

です。どうかこのテストをパスするための助言をお願いします。
大山





2008/05/20 21:02 Kameyama Toyohisa <kameyama @ pccluster.org>:

> 亀山です.
>
> eiichi ooyama さんは書きました:
> > 度々すいません。インストール後のテストに関する質問なのですが、
> > SCOUT TEST PROCEDURE という項で、
> >
> > SCOUT コマンドの実行
> >
> >     |$ *msgb -group /pcc/ &*|
> >
> > の後、以下のようなエラーメッセージが出てしまいます。host1というのはサー
> > バー兼計算ノードです。
> >
> > [hoge @ host1 etc]$ msgb -group ethergroup &
> > [1] 25405
> > [hoge @ host1 etc]$ can't open server host1.nunmaecluster.com:8767
> > <http://host1.nunmaecluster.com:8767>, couldn't open socket: connection
> > refused
> >
> > この場合考えられる原因は何でしょうか?
>
> 1. msgbserv があがっていない.
>   ps などで, msgbserv があがっているかどうか確認してください.
>
> 2. scorehosts.db で msgbserv の port を 8764 に指定してください.
>   msgbserv の default は 8766 なんですが, /etc/init.d/msgbserv では
>   8764 で上げているため通信ができなくなっていると思われます.
>
> 多分, 2 ではないかと...
>
> Kameyama Toyohisa
>

-------------- next part --------------
HTMLの添付ファイルを保管しました...
URL: <http://new1.pccluster.org/pipermail/score-users-jp/attachments/20080521/461c3486/attachment.html>


SCore-users-jp メーリングリストの案内