[SCore-users-jp] PM/Myrinet及びPM/S hmemにおけるゼロコピー機能のメカニズム

2004年 2月 26日 (木) 21:52:11 JST

亀山様、堀様、住元様

日立製作所の森田です。

ご回答有難うございました。

皆様方のおかげで演算部の性能が変化する原因の推察ができました。

また、ゼロコピー機能の詳細な部分に関して、質問させて頂くかも
しれませんが、その時はよろしくお願い致します。

以下は「参考まで」です。

> ちなみに, これらの実験で結果自体は正しかったのですよね?

計算結果は正しいです。

> 確認ですが, そうすると, 最終的に各プロセスで計算した結果を
> 統合して出力する必要がある (そのために MPI の関数を使用する必要がある)
> と思いますが, その部分は演算部の後の計測範囲外の部分にあるという
> 認識でよろしいでしょうか?

各プロセスで計算した結果を統合して出力する部分は演算部の後の計測範囲外
の部分にあると理解して頂いて結構です。

正確に言うと「ある計算の中心となる部分」のみを抜き出して測定プログラム
としています。従って、プログラム全体で考えると上記のように理解して頂いて
結構です。

尚、通信部は演算部を計算するために必要な部分です。

> (ちなみに, プログラムを実行したときの性能のばらつきは
> どの程度あるのでしょうか?)

大きくてもMFLOPS単位で100のオーダーです。1000のオーダーでばらつくことは
なかったと記憶しております。

以上です。

>亀山です.
>
>In article <20040226.115911.607983780.s-sumi ＠ flab.fujitsu.co.jp> Shinji Sumimoto <s-sumi ＠ flab.fujitsu.co.jp> wrotes:
>> Itanium2とMyrinetの組合せあれば、コピーしたほうが速いです。Zero-copy通
>> 信が純粋にCPUの演算に影響を与えるとすれば、堀さんが指摘しているとおり、
>> キャッシュが無効化されて通信のたびに再ロードが発生していると思われます。
>
>今回の場合, 通信と演算を別にしているのでその影響はないのでは,
>と思いましたが, そうでもないような気がしてきました.
>
>zerocopy の場合は, 直接 memory 上にコピーされることになるので,
>キャッシュが無効な状態で演算を開始することになるのに対して,
>zerocopy を使用しない場合は, 条件によっては, 演算に必要なデータが
>すでにキャッシュに入っている可能性があり,
>その場合はメモリをキャッシュに転送する時間だけ
>速くなっている可能性がありますね.
>(実際は CPU が複数あるため, もっと複雑そうですが...)
>
>                       from Kameyama Toyohisa
>