[SCore-users-jp] SRAM parity error
Satoshi Sato
satoshi.satou @ aist.go.jp
2006年 7月 3日 (月) 19:09:02 JST
お世話になります。産総研 グリッド研究センターの佐藤と申します。
SCore での SRAM の parity error チェックについて教えて下さい。
■ 概要
SCore では、ボード上の SRAM の parity error チェックはどうやっている
のでしょうか?
■ 詳細
先日まで当センターの Myrinet クラスタで SCore を使っておりました。
最近、MPICH/SCore から Myricom が提供している MPICH-MX に移行したので
すが、下記のようなエラーが数ノードで記録されました。
LANai[0]: *** MCP fatal error MX_MCP_LANAI_PARITY_ERROR at (../../mx-1.1.3/mcp/misc.c, 274)
mx WARN: Board number 0 marked dead
mx WARN: firmware dead on board 0, ignoring ioctl
mx WARN: mx0: Failed to close endpoint 1 on mcp
mx WARN: firmware dead on board 0, ignoring ioctl
mx WARN: mx0: Failed to close endpoint 0 on mcp
このエラーについて Myricom 社に問い合わせたところ、
・SRAM の parity ERROR が発生した場合、Lanai SRAM のどこかで ERROR が
起こったことは分かるが、どこで起こったかは分からないので計算を止めて
いる
との事でした。
SCore を使っている時は、parity ERROR で計算が止まるような事はなかった
ので、SCore ではうまいこと回避していたのだろうか、と思いました。
宜しくお願いいたします。
.oOo.________________________.oOo.
佐藤 聡 <satoshi.satou @ aist.go.jp>
SCore-users-jp メーリングリストの案内