[SCore-users-jp] SCore-D:PANIC Network freezing timed out

Teiji Matsuzaka matsuzaka @ st-systems.co.jp
2004年 3月 26日 (金) 15:10:17 JST


松阪と申します。

1ノード2CPUの112ノード構成のLinuxクラスタを構築し
Open PBS/SCoreからNPB2.4のsp.A.25を何回か実行した
ところ次の様なエラーが発生しました。
scored を使用して別の計算を行った時も同じエラーが
発生します。正常終了する場合もあります。
SCoreの方で同じような現象が有りませんでしょうか。
又、対処方法など教えて頂けませんでしょうか。
宜しくお願い致します。

<10> SCore-D:PANIC Network freezing timed out !!
SCORE: Killing ...

【ネットワークモジュール】
昨年6月に導入した70ノード: broadcom5703
(安定稼動していたシステムです)
増設分          42ノード: broadcom5704
(増設後に今回のエラーが発生しております)

112ノード構成時にドライバは両方ともbcm5700を使い、
scstestが24時間以上問題なく稼動している状態です。

【実行コマンド】
$ qsub sp.A.25.sh

【実行スクリプトと実行ログ】
-[sp.A.25.sh]-----------------------------------------------
#!/bin/bash
#PBS -l nodes=13:score
#PBS -l ncpus=25

LANG=C
export LANG

cd /home/npb-score/exec.log
logfile="sp.A.25.run.$$"

(date
/usr/bin/time \
        scout -wait -F ${PBS_NODEFILE} -e scrun -nodes=25 \
        /home/npb-score/bin/sp.A.25
date) >& ${logfile}

-[sp.A.25.run.xxxx]-----------------------------------------
Fri Mar 26 01:08:53 JST 2004
SCOUT: Spawning done.
SCore-D 5.6.1 connected.
<0:0> SCORE: 25 nodes (13x2) ready.


 NAS Parallel Benchmarks 2.4 -- SP Benchmark

 No input file inputsp.data. Using compiled defaults
 Size:  64x 64x 64
 Iterations: 400    dt:   0.001500
 Number of active processes:    25

 Time step    1
 Time step   20
 Time step   40
 Time step   60
 Time step   80
<10> SCore-D:PANIC Network freezing timed out !!
SCORE: Killing ...
------------------------------------------------------------

以上




SCore-users-jp メーリングリストの案内