[SCore-users-jp] SRAM parity error

Satoshi Sato satoshi.satou @ aist.go.jp
2006年 7月 3日 (月) 19:09:02 JST


お世話になります。産総研 グリッド研究センターの佐藤と申します。

SCore での SRAM の parity error チェックについて教えて下さい。

■ 概要

  SCore では、ボード上の SRAM の parity error チェックはどうやっている
  のでしょうか?


■ 詳細

先日まで当センターの Myrinet クラスタで SCore を使っておりました。

最近、MPICH/SCore から Myricom が提供している MPICH-MX に移行したので
すが、下記のようなエラーが数ノードで記録されました。

LANai[0]: *** MCP fatal error MX_MCP_LANAI_PARITY_ERROR at (../../mx-1.1.3/mcp/misc.c, 274)
mx WARN: Board number 0 marked dead
mx WARN: firmware dead on board 0, ignoring ioctl
mx WARN: mx0: Failed to close endpoint 1 on mcp
mx WARN: firmware dead on board 0, ignoring ioctl
mx WARN: mx0: Failed to close endpoint 0 on mcp

このエラーについて Myricom 社に問い合わせたところ、

・SRAM の parity ERROR が発生した場合、Lanai SRAM のどこかで ERROR が
  起こったことは分かるが、どこで起こったかは分からないので計算を止めて
  いる

との事でした。

SCore を使っている時は、parity ERROR で計算が止まるような事はなかった
ので、SCore ではうまいこと回避していたのだろうか、と思いました。

宜しくお願いいたします。

.oOo.________________________.oOo.
佐藤 聡 <satoshi.satou @ aist.go.jp>



SCore-users-jp メーリングリストの案内