Re: [SCore-users-jp] PM/Ethernet が動作しない

eiichi ooyama ooyama.eiichi @ gmail.com
2008年 6月 25日 (水) 23:39:37 JST


大山と申します。
横からすいません。先日私が亀山さんに助けてもらった状況とすこし似ているような気がしましたので、、、

私の環境もup2dateはしませんでしたがCentOS4.6(2.6.9-67.ELsmp)で、x86_64です。
同じように下のテストでglibcのエラーで落ちていました。私のケースの結論は、e1000_scorepm1が
make出来ておらず、ただのe1000ドライバが使われていたのが原因でしたが。(パッチが必要だった)
/opt/score/install/linux2.6/netdev -a
などでtg3_scorepm1ドライバが使われているかは確認されてますか?


2008/06/25 6:00 MASA(tm) <masa @ soldec-solution.jp>:

> 菊池と申します。こんにちは。
>
> 以下の環境で PM/Ethernet が動作しません。はまってしまって、
> アドバイスをいただきたくメールしました。よろしくお願いいたし
> ます。
>
> SCoer:6.0.2.1 をソースからビルド
>
> ホスト:HP DL160G5 (XeonQuad X5470x2 8node)
> dl160g5-1.test.local    (サーバホスト、計算ホスト0)
> dl160g5-2.test.local    (計算ホスト1)
> dl160g5-3.test.local    (計算ホスト2)
>
> NIC:
>  eth0: NC105i(オンボード、PM/Ethernet 用 tg3_scorepm1)
>  eth1: NC105i(オンボード、その他用 tg3)
> eth2: NC110T(増設、その他ネットワーク用、サーバホストのみ e1000)
>
> OS:CentOS4.6 x86_64
> SCore の導入前に up2date で更新
>  $ uname -r
>  2.6.9-67.0.15.ELsmp
>
>
> 1.PM/Ethernet 導入以前
> 都合があって一台で SCore にし、PM/Shmem で動作を確認しま
> した。「PM/Shmem のテスト方法」(*) を正しく終え、
> Intel Fortran 10 も導入し、pi3f90 が動作しました。
> (*)
> http://www.pccluster.org/score/dist/score/html/ja/installation/pm-testshmem.html
>
> 2.ホスト追加
> 同等のホストを追加し、サーバホスト用の NIC を追加しまし
> た。
> 1)ネットワーク
> ・サーバホストがマルチホーム、計算ホストを兼用
> ・計算ホストを DHCP で構成したい
> ・eth0 を PM 専用、eth1 で、DHCP、NFS 等提供
> などがあって紆余曲折したものの、名前解決や rsh に関連する
> エラーは無くなった(はず)
> 2)サーバホストの追加 NIC
> dmesg によると、起動中は期待に反して
> e1000: eth0: e1000_probe: Intel(R) PRO/1000 Network Connection
> eth2: Tigon3 [partno(N/A) rev a200 PHY(5722/5756)] (PCI Express)
> 10/100/1000Base-T Etherne
> とデバイス番号が振られる。起動後は正常。
> また、
> dmesg | grep -i pm
> ではエラーらしきものは出ない。
>
> 3.PM/Ethernet のテスト
> サーバホストにて
> ・ターミナル1
> $ rpmtest dl160g5-3 ethernet -reply -debug 3
>        ethernet_open_device(): -config
> /var/score/scoreboard/dl160g5-1.Eo0:Eo36
>        pmEthernetOpenDevice: Library version
>          $Id: pm_ethernet.c,v 1.71 2004/11/19 05:20:40 kameyama Exp $
>        pmEthernetReadConfig(0x5ed710, unit, 0): set unit number "0" (MAX:
> 4).
>        pmEthernetReadConfig(0x5ed710, intreap, 0): set intreap "0" off.
>        pmEthernetReadConfig(0x5ed710, maxnsend, 16): set maxnsend "16".
>        pmEthernetReadConfig(0x5ed710, backoff, 4800): set backoff "4800"
> usec.
>        pmEthernetReadConfig(0x5ed710, checksum, 0): set checksum "0" off.
>        pmEthernetOpenDevice("/var/score/scoreboard/dl160g5-1.Eo0:Eo36",
> 0x7fbfffef10): pmEthernetMapEthernet(0, 0x7fbfffeeb8): 0
>        self dl160g5-3.test.local n 2 of 3 nodes
>        pm: CPU Clock=2992.39MHz
>        pmEthernetOpenDevice: Driver version
>          $Id: pm_ethernet_dev_nkp.c,v 1.3 2006/12/19 02:32:01 kameyama Exp
> $
>        ethernet_open_device(): success
>        [2](0)pmEthernetRegisterProc(): proc 23287(23287), tid 23287
>        [2](0) pmEthernetAssociateNodes(0x5f12f0, 0x5ed810, 3):ndev=1
>        [2](0) pmEthernetBindChannel(0x5f12f0, 0, 0): called
> (後は変化なし)
>
> ・ターミナル2
> $ rpmtest dl160g5-2 ethernet -dest 2 -ping -debug 3
>        ethernet_open_device(): -config
> /var/score/scoreboard/dl160g5-1.Eo0:Eo36
>        pmEthernetOpenDevice: Library version
>          $Id: pm_ethernet.c,v 1.71 2004/11/19 05:20:40 kameyama Exp $
>        pmEthernetReadConfig(0x5ed710, unit, 0): set unit number "0" (MAX:
> 4).
>        pmEthernetReadConfig(0x5ed710, intreap, 0): set intreap "0" off.
>        pmEthernetReadConfig(0x5ed710, maxnsend, 16): set maxnsend "16".
>        pmEthernetReadConfig(0x5ed710, backoff, 4800): set backoff "4800"
> usec.
>        pmEthernetReadConfig(0x5ed710, checksum, 0): set checksum "0" off.
>        pmEthernetOpenDevice("/var/score/scoreboard/dl160g5-1.Eo0:Eo36",
> 0x7fbfffeef0): pmEthernetMapEthernet(0, 0x7fbfffee98): 0
>        self dl160g5-2.test.local n 1 of 3 nodes
>        pm: CPU Clock=2992.42MHz
>        pmEthernetOpenDevice: Driver version
>          $Id: pm_ethernet_dev_nkp.c,v 1.3 2006/12/19 02:32:01 kameyama Exp
> $
>        ethernet_open_device(): success
>        [1](0)pmEthernetRegisterProc(): proc 22306(22306), tid 22306
>        [1](0) pmEthernetAssociateNodes(0x5f12f0, 0x5ed810, 3):ndev=1
>        [1](0) pmEthernetBindChannel(0x5f12f0, 0, 0): called
>        Ethernet PM context #0 information (unit 0)
>         channel 0 descripter information
> (略
>        *** glibc detected *** double free or corruption (out):
> 0x00000000005f1a00 ***
> (しばらくすると、正常な結果を出さずに落ちる
> --
> ----------------------------------
>  菊池 匡洋
>  mailto:masa @ soldec-solution.jp
> ----------------------------------
>
> _______________________________________________
> SCore-users-jp mailing list
> SCore-users-jp @ pccluster.org
> http://www.pccluster.org/mailman/listinfo/score-users-jp
>
>

-------------- next part --------------
HTMLの添付ファイルを保管しました...
URL: <http://new1.pccluster.org/pipermail/score-users-jp/attachments/20080625/aab1d8c2/attachment.html>


SCore-users-jp メーリングリストの案内