[SCore-users-jp] SCore-D:PANIC Network freezing timed out
Teiji Matsuzaka
matsuzaka @ st-systems.co.jp
2004年 3月 26日 (金) 15:10:17 JST
松阪と申します。
1ノード2CPUの112ノード構成のLinuxクラスタを構築し
Open PBS/SCoreからNPB2.4のsp.A.25を何回か実行した
ところ次の様なエラーが発生しました。
scored を使用して別の計算を行った時も同じエラーが
発生します。正常終了する場合もあります。
SCoreの方で同じような現象が有りませんでしょうか。
又、対処方法など教えて頂けませんでしょうか。
宜しくお願い致します。
<10> SCore-D:PANIC Network freezing timed out !!
SCORE: Killing ...
【ネットワークモジュール】
昨年6月に導入した70ノード: broadcom5703
(安定稼動していたシステムです)
増設分 42ノード: broadcom5704
(増設後に今回のエラーが発生しております)
112ノード構成時にドライバは両方ともbcm5700を使い、
scstestが24時間以上問題なく稼動している状態です。
【実行コマンド】
$ qsub sp.A.25.sh
【実行スクリプトと実行ログ】
-[sp.A.25.sh]-----------------------------------------------
#!/bin/bash
#PBS -l nodes=13:score
#PBS -l ncpus=25
LANG=C
export LANG
cd /home/npb-score/exec.log
logfile="sp.A.25.run.$$"
(date
/usr/bin/time \
scout -wait -F ${PBS_NODEFILE} -e scrun -nodes=25 \
/home/npb-score/bin/sp.A.25
date) >& ${logfile}
-[sp.A.25.run.xxxx]-----------------------------------------
Fri Mar 26 01:08:53 JST 2004
SCOUT: Spawning done.
SCore-D 5.6.1 connected.
<0:0> SCORE: 25 nodes (13x2) ready.
NAS Parallel Benchmarks 2.4 -- SP Benchmark
No input file inputsp.data. Using compiled defaults
Size: 64x 64x 64
Iterations: 400 dt: 0.001500
Number of active processes: 25
Time step 1
Time step 20
Time step 40
Time step 60
Time step 80
<10> SCore-D:PANIC Network freezing timed out !!
SCORE: Killing ...
------------------------------------------------------------
以上
SCore-users-jp メーリングリストの案内