[SCore-users-jp] SCoreを使用しないMPICHよりスコアが劣る問題.
池辺 厚慈
atuyosi @ comp.eng.himeji-tech.ac.jp
2004年 1月 27日 (火) 15:23:02 JST
姫路工業大学,情報制御機構研究室の池辺と申します.
前回2,3質問させて頂いた者です.その節はありがとうございました.
今回,下記の質問についてお答え頂戴したくメールを致しました.
何卒ご教授願います.
---ここから質問内容です.
下記環境にてMPICH-SCore環境においてベンチマークを
実行したところ,同一のハードウェア上でのSCoreを利用しない
MPICHよりスコアが劣ってしまうのですが,設定に問題があるのでしょうか?
動作環境
CPU: AthlonXP 2200+
RAM: PC2700 512MB
HDD: SCore時のみ80GB
NIC: intel PRO/1000MT デスクトップアダプタ
HUB: corega GSW-8
OS: RedHat Linux 7.3
SCore version 5.6.1
MPICH version 1.2.5
上記構成を計算ノード16ノード+クラスタ管理ノード1ノード
の計17台で運用しています.
計算ノードへのインストールにはEITを使用しました.
使用したベンチマーク: Poisson FEM-BMTおよび
姫野ベンチXP mpi版 計算サイズM
コンパイラg77-2.96 コンパイルオプション: -O3
結果(SCore環境時)
Poisson FEM-BMT
SCore-D 5.6.1 connected.
<0:0> SCORE: 16 nodes (16x1) ready.
No. of DOFs : 2097152 (n = 128)
No. of PEs : 16
Initialization ...
Start rehearsal measurement process.
Number of iterations in CG 10
Loop executed for 1 times
Residual : 0.00053340235
Elapsed time : 3.72145009 sec.
NFLOPS = 914913280.
MFLOPS measured : 245.848595
-----------------------------------------
Number of iterations in CG 10
Loop executed for 16 times
Residual : 0.00053340235
Elapsed time : 92.4863849 sec.
NFLOPS = 914913280.
MFLOPS measured : 158.278567
-----------------------------------------
姫野ベンチxp mpi版 計算サイズM
SCore-D 5.6.1 connected.
<0:0> SCORE: 16 nodes (16x1) ready.
Sequential version array size
mimax= 257 mjmax= 129 mkmax= 129
Parallel version array size
mimax= 131 mjmax= 67 mkmax= 35
imax= 129 jmax= 65 kmax= 33
I-decomp= 2 J-decomp= 2 K-decomp= 4
Start rehearsal measurement process.
Measure the performance in 3 times.
MFLOPS: 3717.79994 time(s): 0.110634089 0.00169377867
Now, start the actual measurement process.
The loop will be excuted in 1626 times.
This will take about one minute.
Wait for a while.
Loop executed for 1626 times
Gosa : 0.000568608928
MFLOPS: 3408.83448 time(s): 65.3985848
Score based on Pentium III 600MHz : 41.1496201
結果(非SCore環境時)
Poisson FEM-BMT
No. of DOFs : 2097152 (n = 128)
No. of PEs : 16
Initialization ...
Start rehearsal measurement process.
Number of iterations in CG 10
Loop executed for 1 times
Residual : 0.000533402352
Elapsed time : 0.934157 sec.
NFLOPS = 914913280.
MFLOPS measured : 979.399906
-----------------------------------------
Number of iterations in CG 10
Loop executed for 64 times
Residual : 0.000533402352
Elapsed time : 69.241711 sec.
NFLOPS = 914913280.
MFLOPS measured : 845.652843
-----------------------------------------
姫野ベンチxp mpi版 計算サイズM
Sequential version array size
mimax= 257 mjmax= 129 mkmax= 129
Parallel version array size
mimax= 131 mjmax= 67 mkmax= 35
imax= 129 jmax= 65 kmax= 33
I-decomp= 2 J-decomp= 2 K-decomp= 4
Start rehearsal measurement process.
Measure the performance in 3 times.
MFLOPS: 4094.68704 time(s): 0.100451 0.00169377949
Now, start the actual measurement process.
The loop will be excuted in 1791 times.
This will take about one minute.
Wait for a while.
Loop executed for 1791 times
Gosa : 0.000530048565
MFLOPS: 4027.27022 time(s): 60.973137
Score based on Pentium III 600MHz : 48.6150475
〓〓 姫路工業大学 情報制御機構研究室
〓〓 池辺 厚慈
〓〓 atuyosi @ comp.eng.himeji-tech.ac.jp
SCore-users-jp メーリングリストの案内