[SCore-users-jp] PM/Ethernet が動作しない
MASA(tm)
masa @ soldec-solution.jp
2008年 6月 25日 (水) 19:00:24 JST
菊池と申します。こんにちは。
以下の環境で PM/Ethernet が動作しません。はまってしまって、
アドバイスをいただきたくメールしました。よろしくお願いいたし
ます。
SCoer:6.0.2.1 をソースからビルド
ホスト:HP DL160G5 (XeonQuad X5470x2 8node)
dl160g5-1.test.local (サーバホスト、計算ホスト0)
dl160g5-2.test.local (計算ホスト1)
dl160g5-3.test.local (計算ホスト2)
NIC:
eth0: NC105i(オンボード、PM/Ethernet 用 tg3_scorepm1)
eth1: NC105i(オンボード、その他用 tg3)
eth2: NC110T(増設、その他ネットワーク用、サーバホストのみ e1000)
OS:CentOS4.6 x86_64
SCore の導入前に up2date で更新
$ uname -r
2.6.9-67.0.15.ELsmp
1.PM/Ethernet 導入以前
都合があって一台で SCore にし、PM/Shmem で動作を確認しま
した。「PM/Shmem のテスト方法」(*) を正しく終え、
Intel Fortran 10 も導入し、pi3f90 が動作しました。
(*)http://www.pccluster.org/score/dist/score/html/ja/installation/pm-testshmem.html
2.ホスト追加
同等のホストを追加し、サーバホスト用の NIC を追加しまし
た。
1)ネットワーク
・サーバホストがマルチホーム、計算ホストを兼用
・計算ホストを DHCP で構成したい
・eth0 を PM 専用、eth1 で、DHCP、NFS 等提供
などがあって紆余曲折したものの、名前解決や rsh に関連する
エラーは無くなった(はず)
2)サーバホストの追加 NIC
dmesg によると、起動中は期待に反して
e1000: eth0: e1000_probe: Intel(R) PRO/1000 Network Connection
eth2: Tigon3 [partno(N/A) rev a200 PHY(5722/5756)] (PCI Express) 10/100/1000Base-T Etherne
とデバイス番号が振られる。起動後は正常。
また、
dmesg | grep -i pm
ではエラーらしきものは出ない。
3.PM/Ethernet のテスト
サーバホストにて
・ターミナル1
$ rpmtest dl160g5-3 ethernet -reply -debug 3
ethernet_open_device(): -config /var/score/scoreboard/dl160g5-1.Eo0:Eo36
pmEthernetOpenDevice: Library version
$Id: pm_ethernet.c,v 1.71 2004/11/19 05:20:40 kameyama Exp $
pmEthernetReadConfig(0x5ed710, unit, 0): set unit number "0" (MAX: 4).
pmEthernetReadConfig(0x5ed710, intreap, 0): set intreap "0" off.
pmEthernetReadConfig(0x5ed710, maxnsend, 16): set maxnsend "16".
pmEthernetReadConfig(0x5ed710, backoff, 4800): set backoff "4800" usec.
pmEthernetReadConfig(0x5ed710, checksum, 0): set checksum "0" off.
pmEthernetOpenDevice("/var/score/scoreboard/dl160g5-1.Eo0:Eo36", 0x7fbfffef10): pmEthernetMapEthernet(0, 0x7fbfffeeb8): 0
self dl160g5-3.test.local n 2 of 3 nodes
pm: CPU Clock=2992.39MHz
pmEthernetOpenDevice: Driver version
$Id: pm_ethernet_dev_nkp.c,v 1.3 2006/12/19 02:32:01 kameyama Exp $
ethernet_open_device(): success
[2](0)pmEthernetRegisterProc(): proc 23287(23287), tid 23287
[2](0) pmEthernetAssociateNodes(0x5f12f0, 0x5ed810, 3):ndev=1
[2](0) pmEthernetBindChannel(0x5f12f0, 0, 0): called
(後は変化なし)
・ターミナル2
$ rpmtest dl160g5-2 ethernet -dest 2 -ping -debug 3
ethernet_open_device(): -config /var/score/scoreboard/dl160g5-1.Eo0:Eo36
pmEthernetOpenDevice: Library version
$Id: pm_ethernet.c,v 1.71 2004/11/19 05:20:40 kameyama Exp $
pmEthernetReadConfig(0x5ed710, unit, 0): set unit number "0" (MAX: 4).
pmEthernetReadConfig(0x5ed710, intreap, 0): set intreap "0" off.
pmEthernetReadConfig(0x5ed710, maxnsend, 16): set maxnsend "16".
pmEthernetReadConfig(0x5ed710, backoff, 4800): set backoff "4800" usec.
pmEthernetReadConfig(0x5ed710, checksum, 0): set checksum "0" off.
pmEthernetOpenDevice("/var/score/scoreboard/dl160g5-1.Eo0:Eo36", 0x7fbfffeef0): pmEthernetMapEthernet(0, 0x7fbfffee98): 0
self dl160g5-2.test.local n 1 of 3 nodes
pm: CPU Clock=2992.42MHz
pmEthernetOpenDevice: Driver version
$Id: pm_ethernet_dev_nkp.c,v 1.3 2006/12/19 02:32:01 kameyama Exp $
ethernet_open_device(): success
[1](0)pmEthernetRegisterProc(): proc 22306(22306), tid 22306
[1](0) pmEthernetAssociateNodes(0x5f12f0, 0x5ed810, 3):ndev=1
[1](0) pmEthernetBindChannel(0x5f12f0, 0, 0): called
Ethernet PM context #0 information (unit 0)
channel 0 descripter information
(略
*** glibc detected *** double free or corruption (out): 0x00000000005f1a00 ***
(しばらくすると、正常な結果を出さずに落ちる
--
----------------------------------
菊池 匡洋
mailto:masa @ soldec-solution.jp
----------------------------------
SCore-users-jp メーリングリストの案内