From yukio.yamaishi ＠ gmail.com  Sun May 23 13:03:16 2010
From: yukio.yamaishi ＠ gmail.com (Yukio Yamaishi)
Date: Sun, 23 May 2010 13:03:16 +0900
Subject: [SCore-users-jp] =?iso-2022-jp?b?bGlucGFjaxskQjdXQiw3azJMJEsbKEI=?=
	=?iso-2022-jp?b?GyRCJEQkJCRGGyhC?=
Message-ID: <AANLkTikdREBebWhTbyU-ethD2IsdsoQtCoSP-vZHBtx8@mail.gmail.com>

皆様

ご存知の方々、ご教授をいただきたいと思います。
(SCoreクラスタも所有しているが、今回はそのクラスタ
ではないので、ご勘弁下さい)

・Intel(R) Core(TM)2 Duo CPU     E7300  @ 2.66GHz × 8台
・4GB memory/node
・Giga network
・CentOS 5.4, 32 bit

 理論ピーク値： 2.66GHz * 4Flops/cycle * 2cores *8nodes = 170GFlops

こちらはHPL.datの内容です。

HPLinpack benchmark input file
Innovative Computing Laboratory, University of Tennessee
log      output file name (if any)
8            device out (6=stdout,7=stderr,file)
1            # of problems sizes (N)
58496         Ns
1            # of NBs
256           NBs
0            PMAP process mapping (0=Row-,1=Column-major)
1            # of process grids (P x Q)
4            Ps
4            Qs
16.0         threshold
1            # of panel fact
2            PFACTs (0=left, 1=Crout, 2=Right)
1            # of recursive stopping criterium
4            NBMINs (>= 1)
1            # of panels in recursion
2            NDIVs
1            # of recursive panel fact.
1            RFACTs (0=left, 1=Crout, 2=Right)
1            # of broadcast
1            BCASTs (0=1rg,1=1rM,2=2rg,3=2rM,4=Lng,5=LnM)
1            # of lookahead depth
1            DEPTHs (>=0)
2            SWAP (0=bin-exch,1=long,2=mix)
64           swapping threshold
0            L1 in (0=transposed,1=no-transposed) form
0            U  in (0=transposed,1=no-transposed) form
1            Equilibration (0=no,1=yes)
8            memory alignment in double (> 0)


mpich2 + intel 11 compiler + HPL-1.0 + ATLAS-3.6

・上記HPL.dat使用時は、メモリ使用量が８０％ / nodeですが、
計測結果は58GFlops程度で、理論値の34％しか性能が出ていません

・上記Nの数については、65000以上はmemory allocateできないと怒られる。
30000～60000の間に設定して、計測しても58GFlops以下の計測結果です。

・NBについては、32～256の間に設定しても、結果は大して変わりません。

・非計測時のネットワークスループットは400～600Mbps出ています。

    ・openmpi-1.2.7,HPL-2.0やGotoBlasに変更しても、結果は変わらず。

・mpich2 + intel 11 compiler + HPL-1.0 + GotoBlasでは、返って
35GFlopsという結果になってしまいました。

質問：58GFlpos(34%)と言う結果については、納得しておらず、
改善するにはどうすればよろしいのでしょうか？

よろしくお願い致します。


山石

-------------- next part --------------
HTMLの添付ファイルを保管しました...
URL: <http://new1.pccluster.org/pipermail/score-users-jp/attachments/20100523/3bc7aedc/attachment.html>