[SCore-users-jp] PM/Ethernet が動作しない

MASA(tm) masa @ soldec-solution.jp
2008年 6月 25日 (水) 19:00:24 JST


菊池と申します。こんにちは。

 以下の環境で PM/Ethernet が動作しません。はまってしまって、
アドバイスをいただきたくメールしました。よろしくお願いいたし
ます。

SCoer:6.0.2.1 をソースからビルド

ホスト:HP DL160G5 (XeonQuad X5470x2 8node)
 dl160g5-1.test.local    (サーバホスト、計算ホスト0) 
 dl160g5-2.test.local    (計算ホスト1) 
 dl160g5-3.test.local    (計算ホスト2) 

NIC:
  eth0: NC105i(オンボード、PM/Ethernet 用 tg3_scorepm1)
  eth1: NC105i(オンボード、その他用 tg3)
 eth2: NC110T(増設、その他ネットワーク用、サーバホストのみ e1000)

OS:CentOS4.6 x86_64
 SCore の導入前に up2date で更新
  $ uname -r
  2.6.9-67.0.15.ELsmp


1.PM/Ethernet 導入以前
  都合があって一台で SCore にし、PM/Shmem で動作を確認しま
 した。「PM/Shmem のテスト方法」(*) を正しく終え、
 Intel Fortran 10 も導入し、pi3f90 が動作しました。
 (*)http://www.pccluster.org/score/dist/score/html/ja/installation/pm-testshmem.html

2.ホスト追加
  同等のホストを追加し、サーバホスト用の NIC を追加しまし
 た。
1)ネットワーク
 ・サーバホストがマルチホーム、計算ホストを兼用
 ・計算ホストを DHCP で構成したい
 ・eth0 を PM 専用、eth1 で、DHCP、NFS 等提供
 などがあって紆余曲折したものの、名前解決や rsh に関連する
 エラーは無くなった(はず)
2)サーバホストの追加 NIC
  dmesg によると、起動中は期待に反して
e1000: eth0: e1000_probe: Intel(R) PRO/1000 Network Connection
eth2: Tigon3 [partno(N/A) rev a200 PHY(5722/5756)] (PCI Express) 10/100/1000Base-T Etherne
 とデバイス番号が振られる。起動後は正常。
 また、
  dmesg | grep -i pm 
 ではエラーらしきものは出ない。

3.PM/Ethernet のテスト
  サーバホストにて
 ・ターミナル1
  $ rpmtest dl160g5-3 ethernet -reply -debug 3
	ethernet_open_device(): -config /var/score/scoreboard/dl160g5-1.Eo0:Eo36
	pmEthernetOpenDevice: Library version
	  $Id: pm_ethernet.c,v 1.71 2004/11/19 05:20:40 kameyama Exp $
	pmEthernetReadConfig(0x5ed710, unit, 0): set unit number "0" (MAX: 4).
	pmEthernetReadConfig(0x5ed710, intreap, 0): set intreap "0" off.
	pmEthernetReadConfig(0x5ed710, maxnsend, 16): set maxnsend "16".
	pmEthernetReadConfig(0x5ed710, backoff, 4800): set backoff "4800" usec.
	pmEthernetReadConfig(0x5ed710, checksum, 0): set checksum "0" off.
	pmEthernetOpenDevice("/var/score/scoreboard/dl160g5-1.Eo0:Eo36", 0x7fbfffef10): pmEthernetMapEthernet(0, 0x7fbfffeeb8): 0
	self dl160g5-3.test.local n 2 of 3 nodes
	pm: CPU Clock=2992.39MHz
	pmEthernetOpenDevice: Driver version
	  $Id: pm_ethernet_dev_nkp.c,v 1.3 2006/12/19 02:32:01 kameyama Exp $
	ethernet_open_device(): success
	[2](0)pmEthernetRegisterProc(): proc 23287(23287), tid 23287
	[2](0) pmEthernetAssociateNodes(0x5f12f0, 0x5ed810, 3):ndev=1
	[2](0) pmEthernetBindChannel(0x5f12f0, 0, 0): called
  (後は変化なし)

  ・ターミナル2
  $ rpmtest dl160g5-2 ethernet -dest 2 -ping -debug 3
	ethernet_open_device(): -config /var/score/scoreboard/dl160g5-1.Eo0:Eo36
	pmEthernetOpenDevice: Library version
	  $Id: pm_ethernet.c,v 1.71 2004/11/19 05:20:40 kameyama Exp $
	pmEthernetReadConfig(0x5ed710, unit, 0): set unit number "0" (MAX: 4).
	pmEthernetReadConfig(0x5ed710, intreap, 0): set intreap "0" off.
	pmEthernetReadConfig(0x5ed710, maxnsend, 16): set maxnsend "16".
	pmEthernetReadConfig(0x5ed710, backoff, 4800): set backoff "4800" usec.
	pmEthernetReadConfig(0x5ed710, checksum, 0): set checksum "0" off.
	pmEthernetOpenDevice("/var/score/scoreboard/dl160g5-1.Eo0:Eo36", 0x7fbfffeef0): pmEthernetMapEthernet(0, 0x7fbfffee98): 0
	self dl160g5-2.test.local n 1 of 3 nodes
	pm: CPU Clock=2992.42MHz
	pmEthernetOpenDevice: Driver version
	  $Id: pm_ethernet_dev_nkp.c,v 1.3 2006/12/19 02:32:01 kameyama Exp $
	ethernet_open_device(): success
	[1](0)pmEthernetRegisterProc(): proc 22306(22306), tid 22306
	[1](0) pmEthernetAssociateNodes(0x5f12f0, 0x5ed810, 3):ndev=1
	[1](0) pmEthernetBindChannel(0x5f12f0, 0, 0): called
	Ethernet PM context #0 information (unit 0)
	 channel 0 descripter information
  (略 
	*** glibc detected *** double free or corruption (out): 0x00000000005f1a00 ***
  (しばらくすると、正常な結果を出さずに落ちる
-- 
----------------------------------
  菊池 匡洋
  mailto:masa @ soldec-solution.jp
----------------------------------



SCore-users-jp メーリングリストの案内