[SCore-users-jp] linpack計測結果について
Yukio Yamaishi
yukio.yamaishi @ gmail.com
2010年 5月 23日 (日) 13:03:16 JST
皆様
ご存知の方々、ご教授をいただきたいと思います。
(SCoreクラスタも所有しているが、今回はそのクラスタ
ではないので、ご勘弁下さい)
・Intel(R) Core(TM)2 Duo CPU E7300 @ 2.66GHz × 8台
・4GB memory/node
・Giga network
・CentOS 5.4, 32 bit
理論ピーク値: 2.66GHz * 4Flops/cycle * 2cores *8nodes = 170GFlops
こちらはHPL.datの内容です。
HPLinpack benchmark input file
Innovative Computing Laboratory, University of Tennessee
log output file name (if any)
8 device out (6=stdout,7=stderr,file)
1 # of problems sizes (N)
58496 Ns
1 # of NBs
256 NBs
0 PMAP process mapping (0=Row-,1=Column-major)
1 # of process grids (P x Q)
4 Ps
4 Qs
16.0 threshold
1 # of panel fact
2 PFACTs (0=left, 1=Crout, 2=Right)
1 # of recursive stopping criterium
4 NBMINs (>= 1)
1 # of panels in recursion
2 NDIVs
1 # of recursive panel fact.
1 RFACTs (0=left, 1=Crout, 2=Right)
1 # of broadcast
1 BCASTs (0=1rg,1=1rM,2=2rg,3=2rM,4=Lng,5=LnM)
1 # of lookahead depth
1 DEPTHs (>=0)
2 SWAP (0=bin-exch,1=long,2=mix)
64 swapping threshold
0 L1 in (0=transposed,1=no-transposed) form
0 U in (0=transposed,1=no-transposed) form
1 Equilibration (0=no,1=yes)
8 memory alignment in double (> 0)
mpich2 + intel 11 compiler + HPL-1.0 + ATLAS-3.6
・上記HPL.dat使用時は、メモリ使用量が80% / nodeですが、
計測結果は58GFlops程度で、理論値の34%しか性能が出ていません
・上記Nの数については、65000以上はmemory allocateできないと怒られる。
30000〜60000の間に設定して、計測しても58GFlops以下の計測結果です。
・NBについては、32〜256の間に設定しても、結果は大して変わりません。
・非計測時のネットワークスループットは400〜600Mbps出ています。
・openmpi-1.2.7,HPL-2.0やGotoBlasに変更しても、結果は変わらず。
・mpich2 + intel 11 compiler + HPL-1.0 + GotoBlasでは、返って
35GFlopsという結果になってしまいました。
質問:58GFlpos(34%)と言う結果については、納得しておらず、
改善するにはどうすればよろしいのでしょうか?
よろしくお願い致します。
山石
-------------- next part --------------
HTMLの添付ファイルを保管しました...
URL: <http://new1.pccluster.org/pipermail/score-users-jp/attachments/20100523/3bc7aedc/attachment.html>
SCore-users-jp メーリングリストの案内