From shibata.hiroaki @ jp.fujitsu.com Wed Aug 11 14:57:16 2010 From: shibata.hiroaki @ jp.fujitsu.com (Hiroaki Shibata) Date: Wed, 11 Aug 2010 14:57:16 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU3IGJldGE0GyRCJEskKiQxGyhC?= =?iso-2022-jp?b?GyRCJGsbKEJwbXh0ZXN0GyRCJEskRCQkJEY2NSQoJEYbKEI=?= =?iso-2022-jp?b?GyRCJC8kQCQ1JCQbKEI=?= In-Reply-To: References: Message-ID: <9CCB391A0D67CFshibata.hiroaki@jp.fujitsu.com> 富士通九州システムズ)柴田です。 SCore7 beta4 の環境を構築し、pmxtestを実施しているのですが 正常に終了せず、困っております。ネットワーク関連の設定がら みではないかと思うのですが、ご助言をお願いできますでしょうか。 環境はSCore7 beta4 を DVDから bininstall -server 及び bininstall -clientでインストールしております。また、 NICドライバがigbで、インストール後にOSが起動しなかったので /lib/modules/2.6.18-164.el5/extra/score+pm/igb_pmx.ko 削除しています。 Compute Host は pcc1〜pcc4の4台なのですが、 そのうちの2台(pcc1,pcc2)をmachinefile1_2に記述し scout -g machinefile1_2 -e pmxtest -iter 1 -network ethernet を実行すると、 #### TEST SUCCEEDED #### が出力され、正常に終了します。 また同様に、残りの2台(pcc3,pcc4)をmachinefile3_4に記述し scout -g machinefile3_4 -e pmxtest -iter 1 -network ethernet を実行しても正常に終了します。 その他、pcc1,2,3,4から2台を組み合わせるパターンでは、全て正常 に終了しました。 しかし、machinefile1_4に4台のマシン(pcc1,2,3,4)を記述して scout -g machinefile1_4 -e pmxtest -iter 1 -network ethernet を実行すると、最初は問題ないのですが、 ----------------------------------------------------------- ・ ・ ・ [2->3->2] 1.4KB .. 5.08 KP/s (2600 pkt) 196.94 us/p 7.41 MB/s [3->0->3] 1.4KB .. 5.05 KP/s (2600 pkt) 198.06 us/p 7.37 MB/s [3->1->3] 1.4KB .. 5.00 KP/s (2600 pkt) 199.85 us/p 7.31 MB/s Send&Recv, Peer-to-Peer, Burst Communication [3->2->3] 1.4KB .. 5.08 KP/s (2600 pkt) 196.93 us/p 7.41 MB/s ----------------------------------------------------------- と出力されたところで毎回止まってしまいます。 Compute Host は8CPUのマシンでNICがeth0,eth1の2枚ささっています。 2台指定では問題なく動くため、原因が推測できておりません。上記の ような現象はどのような場合に発生するのかをお教え願えますでしょうか。 なお、Compute Hostのdmesgに、 ** PM/Ethernet WARNING: Header Checksum error: from 3 (head 11e8cd != calc ff0219cf) ignored が大量に出力されていますが、過去ログを拝見したところでは、再送して 問題ないという意味と考えております。 以上、よろしくお願いいたします。 --- 柴田 裕昭(shibata.hiroaki @ jp.fujitsu.com) From kameyama @ pccluster.org Tue Aug 17 13:38:19 2010 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Tue, 17 Aug 2010 13:38:19 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU3IGJldGE0GyRCJEskKiQxGyhC?= =?iso-2022-jp?b?GyRCJGsbKEJwbXh0ZXN0GyRCJEskRCQkJEY2NSQoJEYkLyRAJDUbKEI=?= =?iso-2022-jp?b?GyRCJCQbKEI=?= In-Reply-To: <9CCB391A0D67CFshibata.hiroaki@jp.fujitsu.com> References: <9CCB391A0D67CFshibata.hiroaki@jp.fujitsu.com> Message-ID: <4C6A123B.6030600@pccluster.org> 亀山です. (08/11/10 14:57), Hiroaki Shibata Wrote: > しかし、machinefile1_4に4台のマシン(pcc1,2,3,4)を記述して > scout -g machinefile1_4 -e pmxtest -iter 1 -network ethernet > を実行すると、最初は問題ないのですが、 > > ----------------------------------------------------------- > ・ > ・ > ・ > [2->3->2] 1.4KB .. 5.08 KP/s (2600 pkt) 196.94 us/p 7.41 MB/s > [3->0->3] 1.4KB .. 5.05 KP/s (2600 pkt) 198.06 us/p 7.37 MB/s > [3->1->3] 1.4KB .. 5.00 KP/s (2600 pkt) 199.85 us/p 7.31 MB/s > > Send&Recv, Peer-to-Peer, Burst Communication > [3->2->3] 1.4KB .. 5.08 KP/s (2600 pkt) 196.93 us/p 7.41 MB/s > ----------------------------------------------------------- > > と出力されたところで毎回止まってしまいます。 > > Compute Host は8CPUのマシンでNICがeth0,eth1の2枚ささっています。 > 2台指定では問題なく動くため、原因が推測できておりません。上記の > ような現象はどのような場合に発生するのかをお教え願えますでしょうか。 これは pmxtest の bug です. timing によって pcc1 で send&recv の処理を開始しているのに pcc2 ではまだ pingpong の処理を行っている場合があり, この場合に pcc1 で send&recv の処理が終わらないという判定を行う場合があります. score7-src/SCore/test/pmx/twosided.c の if( nodeno == 0 ) { fprintf( output, "\nSend&Recv, Peer-to-Peer, Burst Communication\n" ); } の前に scout_barrier(); を入れてください. Kameyama Toyohisa From shibata.hiroaki @ jp.fujitsu.com Fri Aug 27 10:52:39 2010 From: shibata.hiroaki @ jp.fujitsu.com (Hiroaki Shibata) Date: Fri, 27 Aug 2010 10:52:39 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU3IGJldGE0GyRCJEskKiQxGyhC?= =?iso-2022-jp?b?GyRCJGsbKEJwbXh0ZXN0GyRCJEskRCQkJEY2NSQoJEYbKEI=?= =?iso-2022-jp?b?GyRCJC8kQCQ1JCQbKEI=?= In-Reply-To: <4C6A123B.6030600@pccluster.org> References: <9CCB391A0D67CFshibata.hiroaki@jp.fujitsu.com> <4C6A123B.6030600@pccluster.org> Message-ID: 亀山様 富士通九州システムズ)柴田です。 ご指摘いただいた内容にて、正常に動作することを確認できました。 ありがとうございました。 ご報告が遅れまして申し訳ございません。 --- 柴田 裕昭(shibata.hiroaki @ jp.fujitsu.com) >亀山です. > >(08/11/10 14:57), Hiroaki Shibata Wrote: >> しかし、machinefile1_4に4台のマシン(pcc1,2,3,4)を記述して >> scout -g machinefile1_4 -e pmxtest -iter 1 -network ethernet >> を実行すると、最初は問題ないのですが、 >> >> ----------------------------------------------------------- >> ・ >> ・ >> ・ >> [2->3->2] 1.4KB .. 5.08 KP/s (2600 pkt) 196.94 us/p 7.41 MB/s >> [3->0->3] 1.4KB .. 5.05 KP/s (2600 pkt) 198.06 us/p 7.37 MB/s >> [3->1->3] 1.4KB .. 5.00 KP/s (2600 pkt) 199.85 us/p 7.31 MB/s >> >> Send&Recv, Peer-to-Peer, Burst Communication >> [3->2->3] 1.4KB .. 5.08 KP/s (2600 pkt) 196.93 us/p 7.41 MB/s >> ----------------------------------------------------------- >> >> と出力されたところで毎回止まってしまいます。 >> >> Compute Host は8CPUのマシンでNICがeth0,eth1の2枚ささっています。 >> 2台指定では問題なく動くため、原因が推測できておりません。上記の >> ような現象はどのような場合に発生するのかをお教え願えますでしょうか。 > >これは pmxtest の bug です. >timing によって pcc1 で send&recv の処理を開始しているのに >pcc2 ではまだ pingpong の処理を行っている場合があり, この場合に >pcc1 で send&recv の処理が終わらないという判定を行う場合があります. > >score7-src/SCore/test/pmx/twosided.c の > > if( nodeno == 0 ) { > fprintf( output, "\nSend&Recv, Peer-to-Peer, Burst Communication\n" ); > } >の前に > scout_barrier(); >を入れてください. > >Kameyama Toyohisa >_______________________________________________ >SCore-users-jp mailing list >SCore-users-jp @ pccluster.org >http://www.pccluster.org/mailman/listinfo/score-users-jp From takezawa @ maizuru-ct.ac.jp Fri Aug 27 18:15:14 2010 From: takezawa @ maizuru-ct.ac.jp (Tomoki Takezawa) Date: Fri, 27 Aug 2010 18:15:14 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU3KGJldGEyKRskQiRHJSQbKEI=?= =?iso-2022-jp?b?GyRCJXMlRiVrJTMlcyVRJSQlaSQsTXhNUSRHJC0kXiQ7GyhC?= =?iso-2022-jp?b?GyRCJHMbKEI=?= Message-ID: <000701cb45c8$5be1ede0$13a5c9a0$@ac.jp> 舞鶴工業高等専門学校の竹澤と申します。 SCore7 beta2 で、インテルコンパイラー(バージョン11) が利用できず困っております。 現在までの設定は次の通りです。 1.CentOSの導入。 2.RPMでSCore7 beta2を導入。 3.サーバー1台、計算ホスト4台の構成で、    Gnuコンパイラでの動作を確認。 4.インテルコンパイラー(CとFortran、バージョン11) を導入。    コンパイラのみ導入、IntelのMPIライブラリは無し。 5./opt/score/etc/compilers/site を編集。 6.「 mpicc -compiler intel hello.c 」を実行すると、   次のようにエラー出力   「 mpicc: mpich2 compiler intel is not installed 」 7.MPIライブラリのコンパイルを実行。     cd ./score7-src/mpi/impl smake 次のようにエラー出力 「 build/rules/main:326: *** target pattern contains no `%'. Stop. 」 設定についてのアドバイスをよろしくお願いします。 -- 竹澤 智樹 Tomoki TAKEZAWA From kameyama @ pccluster.org Fri Aug 27 19:18:12 2010 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Fri, 27 Aug 2010 19:18:12 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU3KGJldGEyKRskQiRHJSQbKEI=?= =?iso-2022-jp?b?GyRCJXMlRiVrJTMlcyVRJSQlaSQsTXhNUSRHJC0kXiQ7JHMbKEI=?= In-Reply-To: <000701cb45c8$5be1ede0$13a5c9a0$@ac.jp> References: <000701cb45c8$5be1ede0$13a5c9a0$@ac.jp> Message-ID: <4C7790E4.4000802@pccluster.org> 亀山です. (08/27/10 18:15), Tomoki Takezawa Wrote: > 現在までの設定は次の通りです。 > 1.CentOSの導入。 > 2.RPMでSCore7 beta2を導入。 > 3.サーバー1台、計算ホスト4台の構成で、 >    Gnuコンパイラでの動作を確認。 > 4.インテルコンパイラー(CとFortran、バージョン11) を導入。 >    コンパイラのみ導入、IntelのMPIライブラリは無し。 > 5./opt/score/etc/compilers/site を編集。 > 6.「 mpicc -compiler intel hello.c 」を実行すると、 >   次のようにエラー出力 >   「 mpicc: mpich2 compiler intel is not installed 」 すみません. SCore7 Beta2 に Intel compiler 用の binary を 入れ忘れていました. beta3 - beta5 にはあるので, beta3 以降を入れるのが速いかも知れません. beta2 で動かしたい場合は... > 7.MPIライブラリのコンパイルを実行。 >     cd ./score7-src/mpi/impl > smake > 次のようにエラー出力 > 「 build/rules/main:326: *** target pattern contains no `%'. Stop. 」 もしかして path の途中に : が含まれていないでしょうか? (なんか違う気もしますが...) すみませんが make -p の出力を送ってください. Kameyama Toyohisa