[SCore-users-jp] PM/Ethernet テストで立ち往生

長岡 史郎 nagaoka @ de.takuma-ct.ac.jp
2003年 5月 28日 (水) 17:00:02 JST


 TO :score-users-jp @ pccluster.org
 FROM:長岡史郎
 DATE:2003年5月28日(水)
 RE  :PM/Ethernetテストで立ち往生


 詫間電波高専の長岡と申します。SCORE5.0.1インストール後のPM/Ethernetのテストで立ち往生しています。
 同様の件でのやりとりが過去のログにありましたが、今回の問題の解決策を見つけられませんでしたので、メ
 ーリングリストで尋ねる決心をした次第です。初歩的な質問で大変恐縮なのですが、お力をお貸し下さい。
 よろしくお願いします。
 
 いま、PC4台(AMD K6-2 500MHz 構成は最後に示します)を用いてSCOREのシステムを作ろうとしてい ます。
 構成は、1台をサーバホスト、残り3台を計算ホストです。キーボード、マウス、モニタは1組のみで、切り
 替え機で切り替えています。
 
 書籍"Linuxで並列処理をしよう"に付属のCD-ROMとRedHat7.2(インプレス)を使ってEITによりSCOREをイン
 ストールした後、書籍にあるとおり、サーバホストの /opt/score/doc/html/ja/installation/index.html
 にあるシステムテストの手順に従ってテストを行いました。その結果、SCOUTテストは無事終了したのですが、
 PM/Ethernetテストで以下の様なエラーがでて、先に進めません。
 
  [root @ server root]# /etc/rc.d/init.d/pm_ethernet start
  bash: /etc/rc.d/init.d/pm_ethernet: そのようなファイルやディレクトリはありません
 
  [root @ server sbin]# ./rpmtest comp0 ethernet -dest 1 -ping
  Ethernet PM context #0 information (unit 0)
  channel 0 descripter information
   rx_p=00000000, rx_c=00000000, rx_bp=00000000, rx_bc=00000000
   tx_p=00000001, tx_c=00000000, tx_bp=00000080, tx_bc=00000000
   channel 0 statistics information
   st_txmit=ff0101ff, st_rexmit=00000000, st_xmit_ctl=00000001
   st_xmit_ack=00000008 st_xmit_lost=00000002, st_xmit_stop=0000001f
   st_xmit_err=00000000, st_xmit_received=00000000, st_rcv_valid=0000001f
   st_rcv_ackonly=00000000, st_rcv_igonore=00000000, st_rcv_lose=00000000
   st_rcv_ov=00000000,st_rcv_ov=00000000
   st_rcv_stop=00000000, st_rcv_go=00000000
   pmReceive: Connection timed out(110)
 
 過去ログ(佐賀大学の山本さん)にある指示を参考に確認したところ以下のことがわかりました。
 
  (1)  サーバホストのカーネルがSCOREのものになっていません(uname -rで 2.4.10と表示されます)。
  (2) 計算ホストのカーネルはSCOREのものになっています(2.4.18-2SCORE)
  (3) $dmesg | grep PM を計算ホスト3台で実行したところ、3台とも同じ以下のような結果でした。
 
    PM memory support
    PM/Ethernet: "$Id:pm_Ethernet_dev.c,v 1.1.2.1 2002/03/28 03:05:14 kameyama Exp $"
    PM/Ethernet:register etherpm device as major(122)
 
  (4) また、気がついた点としては、4台のPCのLANカードのIRQは、同じ値ではありませんでした。
   (comp2が10、それ以外の3台は5。但し、IRQの競合はありません(cat /proc/interruptsで確認しました))
 
 サーバホストのdmesgの結果のうち、eth0に関すると思われるところを抜き出すと、以下のようになります。
  
 ・・・・・・・
 epro100.c:v1.09j-t 9/29/99 Donald Becker http://cesdis.gsfc.nasa.gov/linux/drivers/eepro100.html
 eepro100.c: $Revision: 1.36 $ 2000/11/17 Modified by Andrey V. Savochkin <saw @ sa
 w.sw.com.sg> and others
 PCI: Found IRQ 5 for device 00:0b.0
 eth0: Intel Corporation 82557 [Ethernet Pro 100], 00:A0:C9:2A:09:55, IRQ 5.
 Receiver lock-up bug exists -- enabling work-around.
 Board assembly 352509-003, Physical connectors present: RJ45
 Primary interface chip DP83840 PHY #1.
 DP83840 specific setup, setting register 23 to 8462.
 General self-test: passed.
 Serial sub-system self-test: passed.
 Internal registers self-test: passed.
 ROM checksum self-test: passed (0x49caa8d6).
 Receiver lock-up workaround activated.
 Installing knfsd (copyright (C) 1996 okir @ monad.swb.de).  
 SCSI subsystem driver Revision: 1.00
 iSCSI version 2.0.1.8 ( 8-Aug-2001)
 iSCSI control device major number 254
 ・・・・・・・・・

 3行目は計算ホストによって違っています。
 comp0の場合:PCI found IRQ 10 for device 00:0a:0
              IRQ routing conflict for 00:0a:0, have irq5, want irq10 
  comp1の場合:サーバと同じ 
  comp2の場合:PCI:Assigned IRQ10 00:0a:0

 また、下から4行目、Installing knfsd ・・・以下はcomp0からcomp2ともに

 etherpm0:16context using 4096KB MEM, maxunit=4, maxnodes=512, mtu=1468,eth0
  ehterpm0: Interrupt Reaping on eth0, irq5(comp2はirq10です)・・・・・
 
 と続きます。
 
 今回使用したPC4台は、ほぼ同じ仕様です(一部(相違点としては、以下の2点;(1) HDD:サーバホストが40GB、
 計算ホスト3台 が20GB、 (2)グラフィックカードが4台とも異なる、が違っていますが他はおなじです)。

 但し、サーバホストはWindows2000とデュアルブートにしています。これらは、今回の不具合の原因になっている
 のでしょうか? また、scoreのインストール終了時、"Setup Server Host Done" "Congratulation! ・・・"
 のメッセージは出たのですが、書籍"Linuxで並列処理をしよう"の図9.22のSerever Setup画面のメッセージの他
 にも出ていた気がするのですが、記録するのを怠り、いまとなってはそれが何だったかわかりません)。

 サーバホストのカーネルがSCOREのものではないので、この入れ替えが必要なのでしょうか。 もしそうであれば、
 どのようにすればよいか、具体的な手順をお教え下さい。
 

 以上が状況説明です。長くなってすみません。初心者ゆえ、今後どのように対処すればよいか、全くわからずお手
 上げ状態です。 アドバイスを頂けると助かります。

 お忙しいところ恐縮ですが、よろしくお願いします。
 
 
 PCの概要を参考までに添付します。
 
 [root @ server /]# /sbin/lspci
 00:00.0 Host bridge: VIA Technologies, Inc. VT82C598 [Apollo MVP3] (rev 04)
 00:01.0 PCI bridge: VIA Technologies, Inc. VT82C598/694x [Apollo MVP3/Pro133x AGP]
 00:07.0 ISA bridge: VIA Technologies, Inc. VT82C586/A/B PCI-to-ISA [Apollo VP] (rev 47)
 00:07.1 IDE interface: VIA Technologies, Inc. Bus Master IDE (rev 06)
 00:07.2 USB Controller: VIA Technologies, Inc. UHCI USB (rev 02)
 00:07.3 Host bridge: VIA Technologies, Inc. VT82C586B ACPI (rev 10)
 00:0b.0 Ethernet controller: Intel Corporation 82557 [Ethernet Pro 100] (rev 01)
 01:00.0 VGA compatible controller: Matrox Graphics, Inc. MGA G400 AGP (rev 04)
 [root @ server /]# 
 
 
 [root @ server /]# cat /proc/interrupts
            CPU0       
   0:    1253317          XT-PIC  timer
   1:       1370          XT-PIC  keyboard
   2:          0          XT-PIC  cascade
   5:      16805          XT-PIC  eth0    
   8:          1          XT-PIC  rtc
  10:          0          XT-PIC  usb-uhci
  12:      52225          XT-PIC  PS/2 Mouse
  14:      25320          XT-PIC  ide0
  15:     136376          XT-PIC  ide1
 NMI:          0 
 ERR:          0
 
 comp0からcomp2まではeth0のIRQが違いますが、同様の結果(重複なし)でした。

end




SCore-users-jp メーリングリストの案内