[SCore-users-jp] PMのエラー等について

Shinji Sumimoto s-sumi @ flab.fujitsu.co.jp
2004年 4月 23日 (金) 15:37:09 JST


富士通研の住元です。

From: k-ikegami @ aj.jp.nec.com
Subject: [SCore-users-jp] PMのエラー等について
Date: Thu, 22 Apr 2004 17:28:27 +0900
Message-ID: <20040422172827k-ikegami @ mail.jp.nec.com>

k-ikegami> 2.PM/Ethernetのエラー
k-ikegami> SCore上でプログラムを動かすと、PM/Ethernetのエラーが発生します。
k-ikegami> (エラー発生例)
k-ikegami> PM Ethernet 0330
k-ikegami> Version		:	"$Id: pm_ethernet_dev.c,v 1.3 2003/09/22 10:40:55 s-sumi Exp $"
k-ikegami> Device  	:	eth0
k-ikegami> Irq     	:	31
k-ikegami> MTU     	:	1468 Bytes
k-ikegami> Maxnodes	:	512
k-ikegami> MaxContext	:	16
k-ikegami> Intreap 	:	on
k-ikegami> Checksum 	:	on
k-ikegami> Dev error	:	16072

これは、気にしなくていいですが、

k-ikegami> Header err	:	0

k-ikegami> Header cksum err:	4

このエラーは、普通は置きません。
どこかでデータ化けが起きています。

k-ikegami> Data cksum err	:	0

利用されているシステムとNIC(ドライバのバージョン)は何でしょうか? 
あと、ifconfigの結果で同様にエラーが出ていたりしないでしょうか?

k-ikegami> Underrun err	:	0
k-ikegami> 
k-ikegami> 主な構成:
k-ikegami> ・SCoreサーバ1台
k-ikegami> ・計算ホスト:2台(2×2CPU)
k-ikegami> ・スイッチ:SMC8624T(1000BaseT)
k-ikegami> ・SCore 5.6.1 RedHat 7.3
k-ikegami> ・Omni OpenMP利用
k-ikegami> 
k-ikegami> 上記の構成のクラスタが2式あり、双方で上記の様なDev ErrorやChecksum Errorが
k-ikegami> 発生しているので、HWの故障ではないと思うのですが、このような場合には何を
k-ikegami> 疑うべきでしょうか?

この2つのクラスタは同じスイッチにつながっているのでしょうか?  もし、同
じスイッチにつながっているのであれば、スイッチが怪しいのかも知れません。

以前、スイッチに内蔵されているバッファメモリのビット化けにより同様の現
象に遭遇したことがあります。

k-ikegami> ヒントを頂ければ幸いです。
k-ikegami> 
k-ikegami> /*----------------------------------------------*/
k-ikegami> // 池上 光太郎 e-mail: k-ikegami @ aj.jp.nec.com
k-ikegami> _______________________________________________
k-ikegami> SCore-users-jp mailing list
k-ikegami> SCore-users-jp @ pccluster.org
k-ikegami> http://www.pccluster.org/mailman/listinfo/score-users-jp
k-ikegami> 
k-ikegami> 
------
Shinji Sumimoto, Fujitsu Labs



SCore-users-jp メーリングリストの案内