From ks2718281828 @ mopera.net Mon Oct 4 22:12:50 2010 From: ks2718281828 @ mopera.net (Taro Sakata) Date: Mon, 4 Oct 2010 22:12:50 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?RndkOiBTQ29yZTcbJEIkRyROJU0bKEI=?= =?iso-2022-jp?b?GyRCJUMlSCVvITwlLyVIJWklcyUtJXMlMCRLJEQkJCRGGyhC?= =?iso-2022-jp?b?GyRCIUo6RkF3SVUhSxsoQg==?= In-Reply-To: <4CA15970.70604@pccluster.org> References: <4C915FA4.3050805@pccluster.org> <4C916489.4060903@pccluster.org> <59E9BE18E8BE4F3C92BCA27609714B73@TVPC> <4C980769.4000908@pccluster.org> <5B2883D1BE444B288A1428E940CBC43A@TVPC> <4CA147C6.4060602@pccluster.org> <4CA15970.70604@pccluster.org> Message-ID: 亀山様 pccluster.orgにCCで入れ忘れましたので,再送付します。 > $ scout -g machinefile -e pmxtest -iter 1 -network etherhxb > > ではどうでしょうか? 実行結果,状況は下記でした。machine構成は 計算ホスト兼用のserverとcomp1〜comp4の5台構成です。 (1)一応走りますが,応答が非常に遅く,最後に下記出力をして応答がなくなったためCtrl-Cで強制終了させました。 (2)処理中 eth0 側のスイッチのみ反応。eth1側は反応せず。 (3)途中,comp1がダウン。他は落ちていません。 以上,よろしくお願いします。                                   坂田 --------------------------------------------------------------------- [taro @ server test]$ scout -g machinefile -e pmxtest -iter 1 -network etherhxb 28/Sep/10 12:27:45 #### PMX Test for [etherhxb,smp=1,key=48] #### 28/Sep/10 12:27:45 #### 500 [msec] per step #### Testing Two-Sided Communication (MTU is 1372 Bytes) Receive Polling (ENOBUFS) 0.0784 us for 6400000 times iteration Send Polling (ENOBUFS) 32B: 0.0679 us for 7400000 times iteration 64B: 0.0679 us for 7400000 times iteration 128B: 0.0672 us for 7500000 times iteration 256B: 0.0674 us for 7500000 times iteration 512B: 0.0674 us for 7500000 times iteration 1KB: 0.0674 us for 7500000 times iteration 1.3KB: 0.0673 us for 7500000 times iteration One-Way, Peer-to-Peer, Burst Communication [0->1] 32B ..================================== ================================== ================================== Ethernet PM context #3 information sizeof sc=5008 tx_p=0000e8cc, tx_c=0000e4dc,tx_s=0000e8cc, tx_bp=0074da80, tx_bc=0072e000 dump tx descriptors prod=e8cc(cc) cons=e4dc(dc) sent=e8cc mask=3ff [0]= 0: [0001-e411- 20- 5] [0001-e412- 20- 5] [0001-e413- 20- 5] [0001-e414- 20- 5] [0]= 4: [0001-e415- 20- 5] [0001-e416- 20- 5] [0001-e417- 20- 5] [0001-e418- 20- 5] [0]= 8: [0001-e419- 20- 5] [0001-e41a- 20- 5] [0001-e41b- 20- 5] [0001-e41c- 20- 5] [0]= c: [0001-e41d- 20- 5] [0001-e41e- 20- 5] [0001-e41f- 20- 5] [0001-e420- 20- 5] [0]= 10: [0001-e421- 20- 5] [0001-e422- 20- 5] [0001-e423- 20- 5] [0001-e424- 20- 5] [0]= 14: [0001-e425- 20- 5] [0001-e426- 20- 5] [0001-e427- 20- 5] [0001-e428- 20- 5] [0]= 18: [0001-e429- 20- 5] [0001-e42a- 20- 5] [0001-e42b- 20- 5] [0001-e42c- 20- 5] [0]= 1c: [0001-e42d- 20- 5] [0001-e42e- 20- 5] [0001-e42f- 20- 5] [0001-e430- 20- 5] [0]= 20: [0001-e431- 20- 5] [0001-e432- 20- 5] [0001-e433- 20- 5] [0001-e434- 20- 5] [0]= 24: [0001-e435- 20- 5] [0001-e436- 20- 5] [0001-e437- 20- 5] [0001-e438- 20- 5] [0]= 28: [0001-e439- 20- 5] [0001-e43a- 20- 5] [0001-e43b- 20- 5] [0001-e43c- 20- 5] [0]= 2c: [0001-e43d- 20- 5] [0001-e43e- 20- 5] [0001-e43f- 20- 5] [0001-e440- 20- 5]                                   中 略 [0]=3d0: [0001-e3e1- 20- 5] [0001-e3e2- 20- 5] [0001-e3e3- 20- 5] [0001-e3e4- 20- 5] [0]=3d4: [0001-e3e5- 20- 5] [0001-e3e6- 20- 5] [0001-e3e7- 20- 5] [0001-e3e8- 20- 5] [0]=3d8: [0001-e3e9- 20- 5] [0001-e3ea- 20- 5] [0001-e3eb- 20- 5] [0001-e3ec- 20- 5] [0]=3dc: [0001-e3ed- 20- 5] [0001-e3ee- 20- 5] [0001-e3ef- 20- 5] [0001-e3f0- 20- 5] [0]=3e0: [0001-e3f1- 20- 5] [0001-e3f2- 20- 5] [0001-e3f3- 20- 5] [0001-e3f4- 20- 5] [0]=3e4: [0001-e3f5- 20- 5] [0001-e3f6- 20- 5] [0001-e3f7- 20- 5] [0001-e3f8- 20- 5] [0]=3e8: [0001-e3f9- 20- 5] [0001-e3fa- 20- 5] [0001-e3fb- 20- 5] [0001-e3fc- 20- 5] [0]=3ec: [0001-e3fd- 20- 5] [0001-e3fe- 20- 5] [0001-e3ff- 20- 5] [0001-e400- 20- 5] [0]=3f0: [0001-e401- 20- 5] [0001-e402- 20- 5] [0001-e403- 20- 5] [0001-e404- 20- 5] [0]=3f4: [0001-e405- 20- 5] [0001-e406- 20- 5] [0001-e407- 20- 5] [0001-e408- 20- 5] [0]=3f8: [0001-e409- 20- 5] [0001-e40a- 20- 5] [0001-e40b- 20- 5] [0001-e40c- 20- 5] [0]=3fc: [0001-e40d- 20- 5] [0001-e40e- 20- 5] [0001-e40f- 20- 5] [0001-e410- 20- 5] [0]<[0] send kackp seq=1, seq_sent=0 seq_acked=0, nsend=8, seq_sendack=0 stat=0 [0]>[0] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 [0]<[1] send kackp seq=e4dd, seq_sent=e0ec seq_acked=e0ec, nsend=8, seq_sendack=0 stat=200 [0]>[1] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 [0]<[2] send kackp seq=1, seq_sent=0 seq_acked=0, nsend=8, seq_sendack=0 stat=0 [0]>[2] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 [0]<[3] send kackp seq=1, seq_sent=0 seq_acked=0, nsend=8, seq_sendack=0 stat=0 [0]>[3] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 [0]<[4] send kackp seq=3f1, seq_sent=3f0 seq_acked=3f0, nsend=8, seq_sendack=0 stat=0 [0]>[4] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 ================================== ================================== ================================== Ethernet PM context #3 information sizeof sc=5008 tx_p=0000e8cc, tx_c=0000e4dc,tx_s=0000e8cc, tx_bp=0074da80, tx_bc=0072e000 dump tx descriptors prod=e8cc(cc) cons=e4dc(dc) sent=e8cc mask=3ff [0]= 0: [0001-e411- 20- 5] [0001-e412- 20- 5] [0001-e413- 20- 5] [0001-e414- 20- 5] [0]= 4: [0001-e415- 20- 5] [0001-e416- 20- 5] [0001-e417- 20- 5] [0001-e418- 20- 5] [0]= 8: [0001-e419- 20- 5] [0001-e41a- 20- 5] [0001-e41b- 20- 5] [0001-e41c- 20- 5] [0]= c: [0001-e41d- 20- 5] [0001-e41e- 20- 5] [0001-e41f- 20- 5] [0001-e420- 20- 5]         中 略 [0]=3e8: [0001-e3f9- 20- 5] [0001-e3fa- 20- 5] [0001-e3fb- 20- 5] [0001-e3fc- 20- 5] [0]=3ec: [0001-e3fd- 20- 5] [0001-e3fe- 20- 5] [0001-e3ff- 20- 5] [0001-e400- 20- 5] [0]=3f0: [0001-e401- 20- 5] [0001-e402- 20- 5] [0001-e403- 20- 5] [0001-e404- 20- 5] [0]=3f4: [0001-e405- 20- 5] [0001-e406- 20- 5] [0001-e407- 20- 5] [0001-e408- 20- 5] [0]=3f8: [0001-e409- 20- 5] [0001-e40a- 20- 5] [0001-e40b- 20- 5] [0001-e40c- 20- 5] [0]=3fc: [0001-e40d- 20- 5] [0001-e40e- 20- 5] [0001-e40f- 20- 5] [0001-e410- 20- 5] [0]<[0] send kackp seq=1, seq_sent=0 seq_acked=0, nsend=8, seq_sendack=0 stat=0 [0]>[0] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 [0]<[1] send kackp seq=e4dd, seq_sent=e0ec seq_acked=e0ec, nsend=8, seq_sendack=0 stat=200 [0]>[1] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 [0]<[2] send kackp seq=1, seq_sent=0 seq_acked=0, nsend=8, seq_sendack=0 stat=0 [0]>[2] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 [0]<[3] send kackp seq=1, seq_sent=0 seq_acked=0, nsend=8, seq_sendack=0 stat=0 [0]>[3] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 [0]<[4] send kackp seq=3f1, seq_sent=3f0 seq_acked=3f0, nsend=8, seq_sendack=0 stat=0 [0]>[4] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 ================================== ================================== ================================== Ethernet PM context #3 information sizeof sc=5008 tx_p=0000e8cc, tx_c=0000e4dc,tx_s=0000e8cc, tx_bp=0074da80, tx_bc=0072e000 dump tx descriptors prod=e8cc(cc) cons=e4dc(dc) sent=e8cc mask=3ff [0]= 0: [0001-e411- 20- 5] [0001-e412- 20- 5] [0001-e413- 20- 5] [0001-e414- 20- 5] [0]= 4: [0001-e415- 20- 5] [0001-e416- 20- 5] [0001-e417- 20- 5] [0001-e418- 20- 5] [0]= 8: [0001-e419- 20- 5] [0001-e41a- 20- 5] [0001-e41b- 20- 5] [0001-e41c- 20- 5] [0]= c: [0001-e41d- 20- 5] [0001-e41e- 20- 5] [0001-e41f- 20- 5] [0001-e420- 20- 5] [0]= 10: [0001-e421- 20- 5] [0001-e422- 20- 5] [0001-e423- 20- 5] [0001-e424- 20- 5] [0]= 14: [0001-e425- 20- 5] [0001-e426- 20- 5] [0001-e427- 20- 5] [0001-e428- 20- 5]         中 略 [0]=3e4: [0001-e3f5- 20- 5] [0001-e3f6- 20- 5] [0001-e3f7- 20- 5] [0001-e3f8- 20- 5] [0]=3e8: [0001-e3f9- 20- 5] [0001-e3fa- 20- 5] [0001-e3fb- 20- 5] [0001-e3fc- 20- 5] [0]=3ec: [0001-e3fd- 20- 5] [0001-e3fe- 20- 5] [0001-e3ff- 20- 5] [0001-e400- 20- 5] [0]=3f0: [0001-e401- 20- 5] [0001-e402- 20- 5] [0001-e403- 20- 5] [0001-e404- 20- 5] [0]=3f4: [0001-e405- 20- 5] [0001-e406- 20- 5] [0001-e407- 20- 5] [0001-e408- 20- 5] [0]=3f8: [0001-e409- 20- 5] [0001-e40a- 20- 5] [0001-e40b- 20- 5] [0001-e40c- 20- 5] [0]=3fc: [0001-e40d- 20- 5] [0001-e40e- 20- 5] [0001-e40f- 20- 5] [0001-e410- 20- 5] [0]<[0] send kackp seq=1, seq_sent=0 seq_acked=0, nsend=8, seq_sendack=0 stat=0 [0]>[0] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 [0]<[1] send kackp seq=e4dd, seq_sent=e0ec seq_acked=e0ec, nsend=8, seq_sendack=0 stat=200 [0]>[1] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 [0]<[2] send kackp seq=1, seq_sent=0 seq_acked=0, nsend=8, seq_sendack=0 stat=0 [0]>[2] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 [0]<[3] send kackp seq=1, seq_sent=0 seq_acked=0, nsend=8, seq_sendack=0 stat=0 [0]>[3] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 [0]<[4] send kackp seq=3f1, seq_sent=3f0 seq_acked=3f0, nsend=8, seq_sendack=0 stat=0 [0]>[4] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 [taro @ server test]$ ---------------------------------------------------------------------------------- ----- Original Message ----- From: "Kameyama Toyohisa" To: "Taro Sakata" Cc: Sent: Tuesday, September 28, 2010 11:56 AM Subject: Re: [SCore-users-jp] Fwd: SCore7でのネットワークトランキングについて > 亀山です. > > (09/28/10 11:53), Taro Sakata Wrote: >>> ためしに pmxtest を実行してみてください. >>> $ pmxtest -iter 1 -network etherxhb >> >> 実行してみましたところ下記でした。 > > あ, scrun は scout 上で実行していなかったのですね. > > $ scout -g machinefile -e pmxtest -iter 1 -network etherhxb > > ではどうでしょうか? > > Kameyama Toyohisa > ----- Original Message ----- From: "Kameyama Toyohisa" To: "Taro Sakata" Cc: Sent: Tuesday, September 28, 2010 11:56 AM Subject: Re: [SCore-users-jp] Fwd: SCore7でのネットワークトランキングについて > 亀山です. > > (09/28/10 11:53), Taro Sakata Wrote: >>> ためしに pmxtest を実行してみてください. >>> $ pmxtest -iter 1 -network etherxhb >> >> 実行してみましたところ下記でした。 > > あ, scrun は scout 上で実行していなかったのですね. > > $ scout -g machinefile -e pmxtest -iter 1 -network etherhxb > > ではどうでしょうか? > > Kameyama Toyohisa > From s-sumi @ labs.fujitsu.com Wed Oct 6 21:57:30 2010 From: s-sumi @ labs.fujitsu.com (Shinji Sumimoto) Date: Wed, 06 Oct 2010 21:57:30 +0900 (JST) Subject: [SCore-users-jp] =?iso-2022-jp?b?RndkOiBTQ29yZTcbJEIkRyROJU0bKEI=?= =?iso-2022-jp?b?GyRCJUMlSCVvITwlLyVIJWklcyUtJXMlMCRLJEQkJCRGIUo6RkF3GyhC?= =?iso-2022-jp?b?GyRCSVUhSxsoQg==?= In-Reply-To: References: <4CA15970.70604@pccluster.org> Message-ID: <20101006.215730.2159988009886315943.s-sumi@labs.fujitsu.com> 坂田様 富士通研の住元です。 PM/Etherhxbの試用大変ありがとうございます。 こちらでも環境を準備して試したところ同様の状況を再現できました。 ノードがダウンする件は Ethernetドライバの送信packetをfreeする関数中でポ インタがNULLになっているためでした。パッチにより回避可能 (最新のドライ バでは修正されています) 応答が非常に遅い件は、いくつか要因(送信でe1000ハードがハング等)があり、 Ethernetのドライバの問題もあるようです。 調査と改善のためしばらく時間 を頂きたくお願いします。 済みませんが、よろしくお願いします。 From: "Taro Sakata" Subject: Re: [SCore-users-jp] Fwd: SCore7でのネットワークトランキングについて(再送付) Date: Mon, 4 Oct 2010 22:12:50 +0900 Message-ID: ks2718281828> 亀山様 ks2718281828> ks2718281828> pccluster.orgにCCで入れ忘れましたので,再送付します。 ks2718281828> ks2718281828> > $ scout -g machinefile -e pmxtest -iter 1 -network etherhxb ks2718281828> > ks2718281828> > ではどうでしょうか? ks2718281828> ks2718281828> 実行結果,状況は下記でした。machine構成は 計算ホスト兼用のserverとcomp1〜comp4の5台構成です。 ks2718281828> ks2718281828> ks2718281828> (1)一応走りますが,応答が非常に遅く,最後に下記出力をして応答がなくなったためCtrl-Cで強制終了させました。 ks2718281828> (2)処理中 eth0 側のスイッチのみ反応。eth1側は反応せず。 ks2718281828> (3)途中,comp1がダウン。他は落ちていません。 ks2718281828> ks2718281828> 以上,よろしくお願いします。 ks2718281828>                                   坂田 ks2718281828> --------------------------------------------------------------------- ks2718281828> [taro @ server test]$ scout -g machinefile -e pmxtest -iter 1 -network ks2718281828> etherhxb ks2718281828> ks2718281828> 28/Sep/10 12:27:45 #### PMX Test for [etherhxb,smp=1,key=48] #### ks2718281828> 28/Sep/10 12:27:45 #### 500 [msec] per step #### ks2718281828> Testing Two-Sided Communication (MTU is 1372 Bytes) ks2718281828> ks2718281828> Receive Polling (ENOBUFS) ks2718281828> 0.0784 us for 6400000 times iteration ks2718281828> ks2718281828> Send Polling (ENOBUFS) ks2718281828> 32B: 0.0679 us for 7400000 times iteration ks2718281828> 64B: 0.0679 us for 7400000 times iteration ks2718281828> 128B: 0.0672 us for 7500000 times iteration ks2718281828> 256B: 0.0674 us for 7500000 times iteration ks2718281828> 512B: 0.0674 us for 7500000 times iteration ks2718281828> 1KB: 0.0674 us for 7500000 times iteration ks2718281828> 1.3KB: 0.0673 us for 7500000 times iteration ks2718281828> ks2718281828> One-Way, Peer-to-Peer, Burst Communication ks2718281828> [0->1] 32B ..================================== ks2718281828> ================================== ks2718281828> ================================== ks2718281828> Ethernet PM context #3 information sizeof sc=5008 ks2718281828> tx_p=0000e8cc, tx_c=0000e4dc,tx_s=0000e8cc, tx_bp=0074da80, tx_bc=0072e000 ks2718281828> ks2718281828> dump tx descriptors prod=e8cc(cc) cons=e4dc(dc) sent=e8cc mask=3ff ks2718281828> [0]= 0: [0001-e411- 20- 5] [0001-e412- 20- 5] [0001-e413- 20- 5] ks2718281828> [0001-e414- 20- 5] ks2718281828> [0]= 4: [0001-e415- 20- 5] [0001-e416- 20- 5] [0001-e417- 20- 5] ks2718281828> [0001-e418- 20- 5] ks2718281828> [0]= 8: [0001-e419- 20- 5] [0001-e41a- 20- 5] [0001-e41b- 20- 5] ks2718281828> [0001-e41c- 20- 5] ks2718281828> [0]= c: [0001-e41d- 20- 5] [0001-e41e- 20- 5] [0001-e41f- 20- 5] ks2718281828> [0001-e420- 20- 5] ks2718281828> [0]= 10: [0001-e421- 20- 5] [0001-e422- 20- 5] [0001-e423- 20- 5] ks2718281828> [0001-e424- 20- 5] ks2718281828> [0]= 14: [0001-e425- 20- 5] [0001-e426- 20- 5] [0001-e427- 20- 5] ks2718281828> [0001-e428- 20- 5] ks2718281828> [0]= 18: [0001-e429- 20- 5] [0001-e42a- 20- 5] [0001-e42b- 20- 5] ks2718281828> [0001-e42c- 20- 5] ks2718281828> [0]= 1c: [0001-e42d- 20- 5] [0001-e42e- 20- 5] [0001-e42f- 20- 5] ks2718281828> [0001-e430- 20- 5] ks2718281828> [0]= 20: [0001-e431- 20- 5] [0001-e432- 20- 5] [0001-e433- 20- 5] ks2718281828> [0001-e434- 20- 5] ks2718281828> [0]= 24: [0001-e435- 20- 5] [0001-e436- 20- 5] [0001-e437- 20- 5] ks2718281828> [0001-e438- 20- 5] ks2718281828> [0]= 28: [0001-e439- 20- 5] [0001-e43a- 20- 5] [0001-e43b- 20- 5] ks2718281828> [0001-e43c- 20- 5] ks2718281828> [0]= 2c: [0001-e43d- 20- 5] [0001-e43e- 20- 5] [0001-e43f- 20- 5] ks2718281828> [0001-e440- 20- 5] ks2718281828>                           ks2718281828>         中 略 ks2718281828> ks2718281828> [0]=3d0: [0001-e3e1- 20- 5] [0001-e3e2- 20- 5] [0001-e3e3- 20- 5] ks2718281828> [0001-e3e4- 20- 5] ks2718281828> [0]=3d4: [0001-e3e5- 20- 5] [0001-e3e6- 20- 5] [0001-e3e7- 20- 5] ks2718281828> [0001-e3e8- 20- 5] ks2718281828> [0]=3d8: [0001-e3e9- 20- 5] [0001-e3ea- 20- 5] [0001-e3eb- 20- 5] ks2718281828> [0001-e3ec- 20- 5] ks2718281828> [0]=3dc: [0001-e3ed- 20- 5] [0001-e3ee- 20- 5] [0001-e3ef- 20- 5] ks2718281828> [0001-e3f0- 20- 5] ks2718281828> [0]=3e0: [0001-e3f1- 20- 5] [0001-e3f2- 20- 5] [0001-e3f3- 20- 5] ks2718281828> [0001-e3f4- 20- 5] ks2718281828> [0]=3e4: [0001-e3f5- 20- 5] [0001-e3f6- 20- 5] [0001-e3f7- 20- 5] ks2718281828> [0001-e3f8- 20- 5] ks2718281828> [0]=3e8: [0001-e3f9- 20- 5] [0001-e3fa- 20- 5] [0001-e3fb- 20- 5] ks2718281828> [0001-e3fc- 20- 5] ks2718281828> [0]=3ec: [0001-e3fd- 20- 5] [0001-e3fe- 20- 5] [0001-e3ff- 20- 5] ks2718281828> [0001-e400- 20- 5] ks2718281828> [0]=3f0: [0001-e401- 20- 5] [0001-e402- 20- 5] [0001-e403- 20- 5] ks2718281828> [0001-e404- 20- 5] ks2718281828> [0]=3f4: [0001-e405- 20- 5] [0001-e406- 20- 5] [0001-e407- 20- 5] ks2718281828> [0001-e408- 20- 5] ks2718281828> [0]=3f8: [0001-e409- 20- 5] [0001-e40a- 20- 5] [0001-e40b- 20- 5] ks2718281828> [0001-e40c- 20- 5] ks2718281828> [0]=3fc: [0001-e40d- 20- 5] [0001-e40e- 20- 5] [0001-e40f- 20- 5] ks2718281828> [0001-e410- 20- 5] ks2718281828> [0]<[0] send kackp seq=1, seq_sent=0 seq_acked=0, nsend=8, seq_sendack=0 ks2718281828> stat=0 ks2718281828> [0]>[0] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 ks2718281828> [0]<[1] send kackp seq=e4dd, seq_sent=e0ec seq_acked=e0ec, nsend=8, ks2718281828> seq_sendack=0 stat=200 ks2718281828> [0]>[1] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 ks2718281828> [0]<[2] send kackp seq=1, seq_sent=0 seq_acked=0, nsend=8, seq_sendack=0 ks2718281828> stat=0 ks2718281828> [0]>[2] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 ks2718281828> [0]<[3] send kackp seq=1, seq_sent=0 seq_acked=0, nsend=8, seq_sendack=0 ks2718281828> stat=0 ks2718281828> [0]>[3] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 ks2718281828> [0]<[4] send kackp seq=3f1, seq_sent=3f0 seq_acked=3f0, nsend=8, ks2718281828> seq_sendack=0 stat=0 ks2718281828> [0]>[4] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 ks2718281828> ================================== ks2718281828> ================================== ks2718281828> ================================== ks2718281828> Ethernet PM context #3 information sizeof sc=5008 ks2718281828> tx_p=0000e8cc, tx_c=0000e4dc,tx_s=0000e8cc, tx_bp=0074da80, tx_bc=0072e000 ks2718281828> ks2718281828> dump tx descriptors prod=e8cc(cc) cons=e4dc(dc) sent=e8cc mask=3ff ks2718281828> [0]= 0: [0001-e411- 20- 5] [0001-e412- 20- 5] [0001-e413- 20- 5] ks2718281828> [0001-e414- 20- 5] ks2718281828> [0]= 4: [0001-e415- 20- 5] [0001-e416- 20- 5] [0001-e417- 20- 5] ks2718281828> [0001-e418- 20- 5] ks2718281828> [0]= 8: [0001-e419- 20- 5] [0001-e41a- 20- 5] [0001-e41b- 20- 5] ks2718281828> [0001-e41c- 20- 5] ks2718281828> [0]= c: [0001-e41d- 20- 5] [0001-e41e- 20- 5] [0001-e41f- 20- 5] ks2718281828> [0001-e420- 20- 5] ks2718281828> ks2718281828>         中 略 ks2718281828> ks2718281828> [0]=3e8: [0001-e3f9- 20- 5] [0001-e3fa- 20- 5] [0001-e3fb- 20- 5] ks2718281828> [0001-e3fc- 20- 5] ks2718281828> [0]=3ec: [0001-e3fd- 20- 5] [0001-e3fe- 20- 5] [0001-e3ff- 20- 5] ks2718281828> [0001-e400- 20- 5] ks2718281828> [0]=3f0: [0001-e401- 20- 5] [0001-e402- 20- 5] [0001-e403- 20- 5] ks2718281828> [0001-e404- 20- 5] ks2718281828> [0]=3f4: [0001-e405- 20- 5] [0001-e406- 20- 5] [0001-e407- 20- 5] ks2718281828> [0001-e408- 20- 5] ks2718281828> [0]=3f8: [0001-e409- 20- 5] [0001-e40a- 20- 5] [0001-e40b- 20- 5] ks2718281828> [0001-e40c- 20- 5] ks2718281828> [0]=3fc: [0001-e40d- 20- 5] [0001-e40e- 20- 5] [0001-e40f- 20- 5] ks2718281828> [0001-e410- 20- 5] ks2718281828> [0]<[0] send kackp seq=1, seq_sent=0 seq_acked=0, nsend=8, seq_sendack=0 ks2718281828> stat=0 ks2718281828> [0]>[0] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 ks2718281828> [0]<[1] send kackp seq=e4dd, seq_sent=e0ec seq_acked=e0ec, nsend=8, ks2718281828> seq_sendack=0 stat=200 ks2718281828> [0]>[1] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 ks2718281828> [0]<[2] send kackp seq=1, seq_sent=0 seq_acked=0, nsend=8, seq_sendack=0 ks2718281828> stat=0 ks2718281828> [0]>[2] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 ks2718281828> [0]<[3] send kackp seq=1, seq_sent=0 seq_acked=0, nsend=8, seq_sendack=0 ks2718281828> stat=0 ks2718281828> [0]>[3] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 ks2718281828> [0]<[4] send kackp seq=3f1, seq_sent=3f0 seq_acked=3f0, nsend=8, ks2718281828> seq_sendack=0 stat=0 ks2718281828> [0]>[4] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 ks2718281828> ================================== ks2718281828> ================================== ks2718281828> ================================== ks2718281828> Ethernet PM context #3 information sizeof sc=5008 ks2718281828> tx_p=0000e8cc, tx_c=0000e4dc,tx_s=0000e8cc, tx_bp=0074da80, tx_bc=0072e000 ks2718281828> ks2718281828> dump tx descriptors prod=e8cc(cc) cons=e4dc(dc) sent=e8cc mask=3ff ks2718281828> [0]= 0: [0001-e411- 20- 5] [0001-e412- 20- 5] [0001-e413- 20- 5] ks2718281828> [0001-e414- 20- 5] ks2718281828> [0]= 4: [0001-e415- 20- 5] [0001-e416- 20- 5] [0001-e417- 20- 5] ks2718281828> [0001-e418- 20- 5] ks2718281828> [0]= 8: [0001-e419- 20- 5] [0001-e41a- 20- 5] [0001-e41b- 20- 5] ks2718281828> [0001-e41c- 20- 5] ks2718281828> [0]= c: [0001-e41d- 20- 5] [0001-e41e- 20- 5] [0001-e41f- 20- 5] ks2718281828> [0001-e420- 20- 5] ks2718281828> [0]= 10: [0001-e421- 20- 5] [0001-e422- 20- 5] [0001-e423- 20- 5] ks2718281828> [0001-e424- 20- 5] ks2718281828> [0]= 14: [0001-e425- 20- 5] [0001-e426- 20- 5] [0001-e427- 20- 5] ks2718281828> [0001-e428- 20- 5] ks2718281828> ks2718281828>         中 略 ks2718281828> ks2718281828> [0]=3e4: [0001-e3f5- 20- 5] [0001-e3f6- 20- 5] [0001-e3f7- 20- 5] ks2718281828> [0001-e3f8- 20- 5] ks2718281828> [0]=3e8: [0001-e3f9- 20- 5] [0001-e3fa- 20- 5] [0001-e3fb- 20- 5] ks2718281828> [0001-e3fc- 20- 5] ks2718281828> [0]=3ec: [0001-e3fd- 20- 5] [0001-e3fe- 20- 5] [0001-e3ff- 20- 5] ks2718281828> [0001-e400- 20- 5] ks2718281828> [0]=3f0: [0001-e401- 20- 5] [0001-e402- 20- 5] [0001-e403- 20- 5] ks2718281828> [0001-e404- 20- 5] ks2718281828> [0]=3f4: [0001-e405- 20- 5] [0001-e406- 20- 5] [0001-e407- 20- 5] ks2718281828> [0001-e408- 20- 5] ks2718281828> [0]=3f8: [0001-e409- 20- 5] [0001-e40a- 20- 5] [0001-e40b- 20- 5] ks2718281828> [0001-e40c- 20- 5] ks2718281828> [0]=3fc: [0001-e40d- 20- 5] [0001-e40e- 20- 5] [0001-e40f- 20- 5] ks2718281828> [0001-e410- 20- 5] ks2718281828> [0]<[0] send kackp seq=1, seq_sent=0 seq_acked=0, nsend=8, seq_sendack=0 ks2718281828> stat=0 ks2718281828> [0]>[0] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 ks2718281828> [0]<[1] send kackp seq=e4dd, seq_sent=e0ec seq_acked=e0ec, nsend=8, ks2718281828> seq_sendack=0 stat=200 ks2718281828> [0]>[1] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 ks2718281828> [0]<[2] send kackp seq=1, seq_sent=0 seq_acked=0, nsend=8, seq_sendack=0 ks2718281828> stat=0 ks2718281828> [0]>[2] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 ks2718281828> [0]<[3] send kackp seq=1, seq_sent=0 seq_acked=0, nsend=8, seq_sendack=0 ks2718281828> stat=0 ks2718281828> [0]>[3] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 ks2718281828> [0]<[4] send kackp seq=3f1, seq_sent=3f0 seq_acked=3f0, nsend=8, ks2718281828> seq_sendack=0 stat=0 ks2718281828> [0]>[4] recv que prod=1, cons=1[10] idx=1 offset=0 flags=0 ks2718281828> [taro @ server test]$ ks2718281828> ks2718281828> ks2718281828> ---------------------------------------------------------------------------------- ks2718281828> ks2718281828> ----- Original Message ----- ks2718281828> From: "Kameyama Toyohisa" ks2718281828> To: "Taro Sakata" ks2718281828> Cc: ks2718281828> Sent: Tuesday, September 28, 2010 11:56 AM ks2718281828> Subject: Re: [SCore-users-jp] Fwd: SCore7でのネットワークトランキングについて ks2718281828> ks2718281828> ks2718281828> ks2718281828> ks2718281828> > 亀山です. ks2718281828> > ks2718281828> > (09/28/10 11:53), Taro Sakata Wrote: ks2718281828> >>> ためしに pmxtest を実行してみてください. ks2718281828> >>> $ pmxtest -iter 1 -network etherxhb ks2718281828> >> ks2718281828> >> 実行してみましたところ下記でした。 ks2718281828> > ks2718281828> > あ, scrun は scout 上で実行していなかったのですね. ks2718281828> > ks2718281828> > $ scout -g machinefile -e pmxtest -iter 1 -network etherhxb ks2718281828> > ks2718281828> > ではどうでしょうか? ks2718281828> > ks2718281828> > Kameyama Toyohisa ks2718281828> > ks2718281828> ks2718281828> ----- Original Message ----- ks2718281828> From: "Kameyama Toyohisa" ks2718281828> To: "Taro Sakata" ks2718281828> Cc: ks2718281828> Sent: Tuesday, September 28, 2010 11:56 AM ks2718281828> Subject: Re: [SCore-users-jp] Fwd: SCore7でのネットワークトランキングについて ks2718281828> ks2718281828> ks2718281828> ks2718281828> > 亀山です. ks2718281828> > ks2718281828> > (09/28/10 11:53), Taro Sakata Wrote: ks2718281828> >>> ためしに pmxtest を実行してみてください. ks2718281828> >>> $ pmxtest -iter 1 -network etherxhb ks2718281828> >> ks2718281828> >> 実行してみましたところ下記でした。 ks2718281828> > ks2718281828> > あ, scrun は scout 上で実行していなかったのですね. ks2718281828> > ks2718281828> > $ scout -g machinefile -e pmxtest -iter 1 -network etherhxb ks2718281828> > ks2718281828> > ではどうでしょうか? ks2718281828> > ks2718281828> > Kameyama Toyohisa ks2718281828> > ks2718281828> ks2718281828> _______________________________________________ ks2718281828> SCore-users-jp mailing list ks2718281828> SCore-users-jp @ pccluster.org ks2718281828> http://www.pccluster.org/mailman/listinfo/score-users-jp ------ Shinji Sumimoto, Fujitsu From ks2718281828 @ mopera.net Thu Oct 7 11:09:13 2010 From: ks2718281828 @ mopera.net (Taro Sakata) Date: Thu, 7 Oct 2010 11:09:13 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?RndkOiBTQ29yZTcbJEIkRyROJU0bKEI=?= =?iso-2022-jp?b?GyRCJUMlSCVvITwlLyVIJWklcyUtJXMlMCRLJEQkJCRGGyhC?= =?iso-2022-jp?b?GyRCIUo6RkF3SVUhSxsoQg==?= In-Reply-To: <20101006.215730.2159988009886315943.s-sumi@labs.fujitsu.com> References: <4CA15970.70604@pccluster.org> <20101006.215730.2159988009886315943.s-sumi@labs.fujitsu.com> Message-ID: 富士通研   住元様           CC 亀山様 坂田です。ご多忙のところ,対応いただき,大変ありがとうございます。 (1)ノードがダウンする件  > パッチにより回避可能 (最新のドライバでは修正されています)    了解です。早速確認してみます。  (2)応答が非常に遅い件  >調査と改善のためしばらく時間を頂きたくお願いします。          どうぞ,よろしくお願いいたします。  ----- Original Message ----- From: "Shinji Sumimoto" To: Cc: ; ; Sent: Wednesday, October 06, 2010 9:57 PM Subject: Re: [SCore-users-jp] Fwd: SCore7でのネットワークトランキングについて(再送付) > 坂田様 > > 富士通研の住元です。 > > PM/Etherhxbの試用大変ありがとうございます。 > > こちらでも環境を準備して試したところ同様の状況を再現できました。 > > ノードがダウンする件は Ethernetドライバの送信packetをfreeする関数中でポ > インタがNULLになっているためでした。パッチにより回避可能 (最新のドライ > バでは修正されています) > > 応答が非常に遅い件は、いくつか要因(送信でe1000ハードがハング等)があり、 > Ethernetのドライバの問題もあるようです。 調査と改善のためしばらく時間 > を頂きたくお願いします。 > > 済みませんが、よろしくお願いします。 > From kameyama @ pccluster.org Thu Oct 7 11:57:50 2010 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Thu, 07 Oct 2010 11:57:50 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?RndkOiBTQ29yZTcbJEIkRyROJU0bKEI=?= =?iso-2022-jp?b?GyRCJUMlSCVvITwlLyVIJWklcyUtJXMlMCRLJEQkJCRGIUo6RkF3GyhC?= =?iso-2022-jp?b?GyRCSVUhSxsoQg==?= In-Reply-To: References: <4CA15970.70604@pccluster.org> <20101006.215730.2159988009886315943.s-sumi@labs.fujitsu.com> Message-ID: <4CAD372E.50209@pccluster.org> 亀山です. (10/07/10 11:09), Taro Sakata Wrote: > (1)ノードがダウンする件 >  > パッチにより回避可能 (最新のドライバでは修正されています) > >    了解です。早速確認してみます。  済みません. 最新のドライバというのは, intel の e1000 の最新版という意味ではなく, こちらで管理している source の最新という意味です. 下記の patch をあててください. Kameyama Toyohisa RCS file: /cvsroot/escore/score7-src/SCore/pmx/arch/etherhxb/driver/e1000_pmx/linux2_6/e1000_main.c,v retrieving revision 1.3 retrieving revision 1.4 diff -u -d -r1.3 -r1.4 --- e1000_main.c 11 Sep 2009 01:09:59 -0000 1.3 +++ e1000_main.c 3 Oct 2010 04:36:55 -0000 1.4 @@ -3478,15 +3478,19 @@ struct sk_buff *skb = buffer_info->skb; #ifdef NETIF_F_TSO unsigned int segs, bytecount; + if(skb) { segs = skb_shinfo(skb)->gso_segs ?: 1; /* multiply data chunks by size of headers */ bytecount = ((segs - 1) * skb_headlen(skb)) + skb->len; total_tx_packets += segs; total_tx_bytes += bytecount; + } #else + if(skb) { total_tx_packets++; total_tx_bytes += skb->len; + } #endif } e1000_unmap_and_free_tx_resource(adapter, buffer_info); From ks2718281828 @ mopera.net Tue Oct 12 11:14:10 2010 From: ks2718281828 @ mopera.net (Taro Sakata) Date: Tue, 12 Oct 2010 11:14:10 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?RndkOiBTQ29yZTcbJEIkRyROJU0bKEI=?= =?iso-2022-jp?b?GyRCJUMlSCVvITwlLyVIJWklcyUtJXMlMCRLJEQkJCRGGyhC?= =?iso-2022-jp?b?GyRCIUolSSVpJSQlUCVRJUMlQSRON28hSxsoQg==?= In-Reply-To: <4CAD372E.50209@pccluster.org> References: <4CA15970.70604@pccluster.org> <20101006.215730.2159988009886315943.s-sumi@labs.fujitsu.com> <4CAD372E.50209@pccluster.org> Message-ID: 亀山様 坂田です。  > 最新のドライバというのは, intel の e1000 の最新版という意味ではなく, > こちらで管理している source の最新という意味です.  了解です。パッチ送付,ありがとうございました。  ----- Original Message ----- From: "Kameyama Toyohisa" To: "Taro Sakata" Cc: "Shinji Sumimoto" ; Sent: Thursday, October 07, 2010 11:57 AM Subject: Re: [SCore-users-jp] Fwd: SCore7でのネットワークトランキングについて(再送付) > 亀山です. > > (10/07/10 11:09), Taro Sakata Wrote: >> (1)ノードがダウンする件 >>  > パッチにより回避可能 (最新のドライバでは修正されています) >> >>    了解です。早速確認してみます。  > > 済みません. > 最新のドライバというのは, intel の e1000 の最新版という意味ではなく, > こちらで管理している source の最新という意味です. > > 下記の patch をあててください. > > Kameyama Toyohisa > > RCS file: > /cvsroot/escore/score7-src/SCore/pmx/arch/etherhxb/driver/e1000_pmx/linux2_6/e1000_main.c,v > retrieving revision 1.3 > retrieving revision 1.4 > diff -u -d -r1.3 -r1.4 > --- e1000_main.c 11 Sep 2009 01:09:59 -0000 1.3 > +++ e1000_main.c 3 Oct 2010 04:36:55 -0000 1.4 > @@ -3478,15 +3478,19 @@ > struct sk_buff *skb = buffer_info->skb; > #ifdef NETIF_F_TSO > unsigned int segs, bytecount; > + if(skb) { > segs = skb_shinfo(skb)->gso_segs ?: 1; > /* multiply data chunks by size of headers */ > bytecount = ((segs - 1) * skb_headlen(skb)) + > skb->len; > total_tx_packets += segs; > total_tx_bytes += bytecount; > + } > #else > + if(skb) { > total_tx_packets++; > total_tx_bytes += skb->len; > + } > #endif > } > e1000_unmap_and_free_tx_resource(adapter, buffer_info); > From shibata.hiroaki @ jp.fujitsu.com Fri Oct 22 19:07:17 2010 From: shibata.hiroaki @ jp.fujitsu.com (Hiroaki Shibata) Date: Fri, 22 Oct 2010 19:07:17 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU3IGJldGE1GyRCJEskKiQxGyhC?= =?iso-2022-jp?b?GyRCJGtKQk5zPEI5VCRHRGQ7XyQ5JGs4PT5dJEskRCQkGyhC?= =?iso-2022-jp?b?GyRCJEY2NSQoJEYkLyRAJDUkJBsoQg==?= Message-ID: 富士通九州システムズ)柴田です。 SCore7 beta の環境での並列実行について、並列数を増やすと 実行が途中で停止する現象が発生し、調査をいたしております。 お手数をおかけいたしますが、現象の調査についてご助言をい ただければ幸いです。 環境はSCore7 beta5 のソースをコンパイルしてインストールし ております。また、NICドライバがigbで、インストール後にOSが 起動しなくなったので /lib/modules/2.6.18-164.el5/extra/score+pm/igb_pmx.ko を削除しています。 現象ですが、以下のようなプログラムをコンパイルして実行した場合に、 ------------------------------------------------- program main use mpi implicit none integer MYRANK, NPROC, IERR, DESTRANK, ISTAT(MPI_STATUS_SIZE) real*8 SBUF, RBUF call MPI_INIT( IERR ) call MPI_COMM_SIZE( MPI_COMM_WORLD, NPROC, IERR ) call MPI_COMM_RANK( MPI_COMM_WORLD, MYRANK, IERR ) if(MYRANK == 0) then do DESTRANK=1, NPROC-1 SBUF = DESTRANK call MPI_SEND(SBUF,1,MPI_REAL8,DESTRANK,0,MPI_COMM_WORLD,IERR) end do else call MPI_RECV(RBUF,1,MPI_REAL8,0,MPI_ANY_TAG,MPI_COMM_WORLD,ISTAT,IERR) write(6,200) MYRANK,RBUF 200 format(1h ,'RANK:',i2,' Received data:',f4.1) end if call MPI_FINALIZE(IERR) stop end program main ----------------------------------------------- -------------実行結果-------------------------- $ scrun -nodes=2x8 -group=./machinefile2_4 -network=ethernet ./test SCore (7.Beta.5) Connected SCORE{1} 16 nodes (2x8) ready. RANK: 8 Received data: 8.0 RANK:10 Received data:10.0 RANK:12 Received data:12.0 RANK:11 Received data:11.0 RANK:15 Received data:15.0 RANK:14 Received data:14.0 RANK: 1 Received data: 1.0 RANK: 2 Received data: 2.0 RANK: 4 Received data: 4.0 RANK: 5 Received data: 5.0 RANK: 7 Received data: 7.0 RANK: 3 Received data: 3.0 RANK: 6 Received data: 6.0 RANK: 9 Received data: 9.0 ----------------------------------------------- 上記のように、結果が全て出力されずに、停止した状態になります。 ctrl-Cで終了させることはできます。8並列までは特に問題なく実行され ますが、16並列以上になると、この現象が発生します。 また、hello.cをコンパイルして実行した場合も8並列までは特に問題なく 動作するのですが、それ以上の並列数にすると、プロンプトが戻ってきま せん。 -----------------実行結果------------------------- $ scrun -nodes=2x8 -group=./machinefile2_4 -network=ethernet ./hello SCore (7.Beta.5) Connected SCORE{1} 16 nodes (2x8) ready. Hello !! from pcc-comp03 @ 8/16 Hello !! from pcc-comp03 @ 9/16 Hello !! from pcc-comp03 @ 10/16 Hello !! from pcc-comp03 @ 11/16 Hello !! from pcc-comp03 @ 12/16 Hello !! from pcc-comp03 @ 13/16 Hello !! from pcc-comp02 @ 0/16 Hello !! from pcc-comp03 @ 14/16 Hello !! from pcc-comp02 @ 1/16 Hello !! from pcc-comp02 @ 2/16 Hello !! from pcc-comp02 @ 3/16 Hello !! from pcc-comp02 @ 4/16 Hello !! from pcc-comp02 @ 5/16 Hello !! from pcc-comp02 @ 6/16 Hello !! from pcc-comp03 @ 15/16 Hello !! from pcc-comp02 @ 7/16 ------------------------------------------------- たまに正常に戻る場合もありますが、ほぼ戻ってきません。 当初、beta4をバイナリインストールしたのですが、同様の現象が発生 したため、調査の段階で、beta5のバイナリインストール及びソースから コンパイル、インストールと試してみたのですが、結果は同じでした。 並列数が少なければ動作するので、ネットワークの問題かと思いまして igbのドライバの変更等も実施してみましたが、やはり同じです。 igb_pmx.koを削除してもethernet指定の場合は問題ないと考えてい ましたが、これがまずいのでしょうか。 設定として疑ったほうが良い箇所がありましたらご教授いただけませんで しょうか。 以上、よろしくお願いいたします。 --- 柴田 裕昭(shibata.hiroaki @ jp.fujitsu.com) From kameyama @ pccluster.org Tue Oct 26 10:12:17 2010 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Tue, 26 Oct 2010 10:12:17 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU3IGJldGE1GyRCJEskKiQxGyhC?= =?iso-2022-jp?b?GyRCJGtKQk5zPEI5VCRHRGQ7XyQ5JGs4PT5dJEskRCQkJEY2NSQoGyhC?= =?iso-2022-jp?b?GyRCJEYkLyRAJDUkJBsoQg==?= In-Reply-To: References: Message-ID: <4CC62AF1.5040309@pccluster.org> 亀山です. (10/22/10 19:07), Hiroaki Shibata Wrote: > 現象ですが、以下のようなプログラムをコンパイルして実行した場合に、 > ------------------------------------------------- > program main > > use mpi > > implicit none > > integer MYRANK, NPROC, IERR, DESTRANK, ISTAT(MPI_STATUS_SIZE) > real*8 SBUF, RBUF > > call MPI_INIT( IERR ) > call MPI_COMM_SIZE( MPI_COMM_WORLD, NPROC, IERR ) > call MPI_COMM_RANK( MPI_COMM_WORLD, MYRANK, IERR ) > > if(MYRANK == 0) then > do DESTRANK=1, NPROC-1 > SBUF = DESTRANK > call MPI_SEND(SBUF,1,MPI_REAL8,DESTRANK,0,MPI_COMM_WORLD,IERR) > end do > else > call MPI_RECV(RBUF,1,MPI_REAL8,0,MPI_ANY_TAG,MPI_COMM_WORLD,ISTAT,IERR) > write(6,200) MYRANK,RBUF > 200 format(1h ,'RANK:',i2,' Received data:',f4.1) > > end if > call MPI_FINALIZE(IERR) > stop > > end program main > ----------------------------------------------- > > -------------実行結果-------------------------- > $ scrun -nodes=2x8 -group=./machinefile2_4 -network=ethernet ./test > SCore (7.Beta.5) Connected > SCORE{1} 16 nodes (2x8) ready. > RANK: 8 Received data: 8.0 > RANK:10 Received data:10.0 > RANK:12 Received data:12.0 > RANK:11 Received data:11.0 > RANK:15 Received data:15.0 > RANK:14 Received data:14.0 > RANK: 1 Received data: 1.0 > RANK: 2 Received data: 2.0 > RANK: 4 Received data: 4.0 > RANK: 5 Received data: 5.0 > RANK: 7 Received data: 7.0 > RANK: 3 Received data: 3.0 > RANK: 6 Received data: 6.0 > RANK: 9 Received data: 9.0 > ----------------------------------------------- > 上記のように、結果が全て出力されずに、停止した状態になります。 > ctrl-Cで終了させることはできます。8並列までは特に問題なく実行され > ますが、16並列以上になると、この現象が発生します。 対症療法ですが, 送信バッファ及び受信バッファを MTU * senddesc, MTU * recvdesc 以上 確保してみてください. MTU が 1460 の場合, sendbufsize と recvbufsize を 374784 に 設定してみてください. Kameyama Toyohisa From e6837 @ g.maizuru-ct.ac.jp Tue Oct 26 23:23:42 2010 From: e6837 @ g.maizuru-ct.ac.jp (Yutaro Kamo) Date: Tue, 26 Oct 2010 23:23:42 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?T21uaSBPcGVuTVAbJEIkSyQqJDEbKEI=?= =?iso-2022-jp?b?GyRCJGslOyUwJWElcyVGITwlNyVnJXMwY0g/GyhC?= Message-ID: こんにちは。 舞鶴高専の加茂と申します。 現在、試験的に下記の二台構成で並列システムを構築しています。 ・Server兼計算ホスト NEC Express5800/120Rd-1 Xeon 2.8GHz 2GBメモリ,NIC e1000 ・計算ホスト Compaq nx6320 Celeron 430 1.5GBメモリ NIC NetXtreme BCM5788 SCoreのバージョンは6.0.2で、すべてソースからビルドしてインストールしました。 計算ホストでは、サーバーマシンの/opt/score以下をNFSでマウントしています。 公式のドキュメント通りPMテスト手順、SCoreテスト手順のMPIテストまでを行いパスしたことを確認しました。 次に、Omni OpenMPを使用するために http://www.pccluster.org/score_doc/score-6.0.0/html/ja/reference/scash/getting-started_omp.html このURLを参考に、デモプログラムをコンパイルし、実行しようとしたところ scrun -nodes=2 ./laplace_omp SCore-D 6.0.2 connected. <0:0> SCORE: 2 nodes (2x1) ready. <1> SCORE: Program signaled (Segmentation fault). と出力され、実行できませんでした。 MPIプログラムは実行できることから、pm_ethernetでの通信には成功していることが考えられます。 メーリングリストの過去ログを拝見させていただいても同様のケースは見られなかったため、質問させていただきました。 よろしくお願いします。 -- _/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄ 舞鶴工業高等専門学校 電気情報工学科 学生      加茂 勇太郎 e6837 @ g.maizuru-ct.ac.jp _/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄ From kameyama @ pccluster.org Wed Oct 27 10:08:56 2010 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Wed, 27 Oct 2010 10:08:56 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?T21uaSBPcGVuTVAbJEIkSyQqJDEbKEI=?= =?iso-2022-jp?b?GyRCJGslOyUwJWElcyVGITwlNyVnJXMwY0g/GyhC?= In-Reply-To: References: Message-ID: <4CC77BA8.9090906@pccluster.org> 亀山です. (10/26/10 23:23), Yutaro Kamo Wrote: > 現在、試験的に下記の二台構成で並列システムを構築しています。 > ・Server兼計算ホスト > NEC Express5800/120Rd-1 Xeon 2.8GHz 2GBメモリ,NIC e1000 > ・計算ホスト > Compaq nx6320 Celeron 430 1.5GBメモリ NIC NetXtreme BCM5788 > SCoreのバージョンは6.0.2で、すべてソースからビルドしてインストールしました。 すみません. 環境が無いので確認できませんが... > 計算ホストでは、サーバーマシンの/opt/score以下をNFSでマウントしています。 > > 公式のドキュメント通りPMテスト手順、SCoreテスト手順のMPIテストまでを行いパスしたことを確認しました。 もしかしたら, Omni/OpenMP の download page http://www.hpcs.cs.tsukuba.ac.jp/omni-openmp/download/download-omni.html から Omni2 を取ってきて Omni/SCASH-MPI (tar の中の Omni2/doc/omni-scash-mpi.html ) を使ったら動くかも知れません. Kameyama Toyohisa From shibata.hiroaki @ jp.fujitsu.com Wed Oct 27 16:02:58 2010 From: shibata.hiroaki @ jp.fujitsu.com (Hiroaki Shibata) Date: Wed, 27 Oct 2010 16:02:58 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU3IGJldGE1GyRCJEskKiQxGyhC?= =?iso-2022-jp?b?GyRCJGtKQk5zPEI5VCRHRGQ7XyQ5JGs4PT5dJEskRCQkGyhC?= =?iso-2022-jp?b?GyRCJEY2NSQoJEYkLyRAJDUkJBsoQg==?= In-Reply-To: <4CC62AF1.5040309@pccluster.org> References: <4CC62AF1.5040309@pccluster.org> Message-ID: 亀山様 柴田です。 ご対応いただきありがとうございます。 >対症療法ですが, 送信バッファ及び受信バッファを MTU * senddesc, MTU * recvdesc >以上 >確保してみてください. >MTU が 1460 の場合, sendbufsize と recvbufsize を 374784 に >設定してみてください. 自分では上記の通り設定したと思うのですが、状況が改善しないため 対応方法につきまして、確認させてください。 MTUを確認したところ1500でしたので、SCoreサーバのscorehosts.dbに ethernet sendbufsize=385024 recvbufsize=385024 を追記いたしました。 scorehosts --checkの結果は以下のようになります。 ------------------------- ethernet recvbufsize=385024 ethernet sendbufsize=385024 comp02 group=_scoreall_,pcc comp02 network=etherhxb,ethernet,sctp comp02 speed=1600 comp02 cores=8 comp02 socks=2 comp03 socks=2 comp03 cores=8 comp03 speed=1600 comp03 network=etherhxb,ethernet,sctp comp03 group=_scoreall_,pcc comp04 socks=2 comp04 cores=8 comp04 speed=1600 comp04 network=etherhxb,ethernet,sctp comp04 group=_scoreall_,pcc #### $SCBDSERV=comp01 #### ------------------------- その後、念のため計算ノード、管理ノードを全て再起動し、 $ scrun -nodes=2x8 -group=./machinefile2_4 -network=ethernet ./test を実行したのですが、現象が変わりませんでした。 RANK13が表示されずに停止した状態となります。 念のため、sendbufsize,recvbufsizeを徐々に大きくして最大4000000まで 試したのですが、現象は同じでした。 コメントいただきました設定が上記で間違いがないかを教えていただけ ますよう、お願いいたします。 しかし、色々と試している過程で、以下の事象が確認できました。 0. $ scrun -nodes=2x8 -group=./machinefile2_4 -network=ethernet ./test を実行すると、途中で停止することを確認する。 1. scorehosts.dbのsendbufsize,recvbufsizeに5000000を指定する (サービスやノードの再起動はしない) 2. $ scrun -nodes=2x8 -group=./machinefile2_4 -network=ethernet ./test を実行する。実行すると以下のエラーが発生する。 ------------------------- $ scrun -nodes=2x8 -group=./machinefile2_4 -network=ethernet ./test SCORED.EXE @ comp02#7750:ERROR: open_pmx_context() at mpcrt.c:151: pmxAddMember (ethernet): Cannot allocate memory SCORED.EXE @ comp03#7725:ERROR: open_pmx_context() at mpcrt.c:151: pmxAddMember (ethernet): Cannot allocate memory SCOUT(comp03): Process 7725 exited with a non-zero exit code (9). $ ------------------------- 3. scorehosts.dbのsendbufsize,recvbufsizeを元の値に戻す。 (サービスやノードの再起動はしない) 4. それ以降、2. の実行が、エラーにもならず、停止もせず、正常に終了する。 scorehosts.dbのsendbufsize,recvbufsizeを書いていない状態からでも、上記の動作 になりました。 正常に終了するようになったというのは、それまでかなりの割合で停止していた ものが50回連続して実行しても停止しなかったということです。 何度か、全てのマシンを再起動して、0. から再度実施するということをしたのですが 毎回同じ現象になります。 この現象が、回避策として有効なものなのか(エラーを起こすことで停止しなくなる ことが起こりえるものなのか)、それとも偶然の出来事なのかがよくわかりません。 何かお分かりになるようでしたら、コメントいただけますと幸いです。 以上、お忙しい中お手数をおかけいたしますが よろしくお願いいたします。 --- 柴田 裕昭(shibata.hiroaki @ jp.fujitsu.com) From e6837 @ g.maizuru-ct.ac.jp Wed Oct 27 17:16:50 2010 From: e6837 @ g.maizuru-ct.ac.jp (Yutaro Kamo) Date: Wed, 27 Oct 2010 17:16:50 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?T21uaSBPcGVuTVAbJEIkSyQqJDEbKEI=?= =?iso-2022-jp?b?GyRCJGslOyUwJWElcyVGITwlNyVnJXMwY0g/GyhC?= In-Reply-To: <4CC77BA8.9090906@pccluster.org> References: <4CC77BA8.9090906@pccluster.org> Message-ID: ご返答ありがとうございます。 > もしかしたら, > Omni/OpenMP の download page > http://www.hpcs.cs.tsukuba.ac.jp/omni-openmp/download/download-omni.html > から Omni2 を取ってきて Omni/SCASH-MPI > (tar の中の > Omni2/doc/omni-scash-mpi.html > ) > を使ったら動くかも知れません. > このとおりにソースをダウンロードしてコンパイルしたところ omsc_vm_handler.c: In function `scash_vm_handler': omsc_vm_handler.c:102: error: `sc' undeclared (first use in this function) omsc_vm_handler.c:102: error: (Each undeclared identifier is reported only once omsc_vm_handler.c:102: error: for each function it appears in.) と出て、makeに失敗してしまいます。 該当ソースの102行目の GET_FAULT_INFO; というソースをコメントアウトして make & make installしたところバイナリができたので、score附属サンプルのomp-helloを /usr/local/bin/omcc -omniconfig=scash-mpi omp-hello.c でコンパイルし実行したところ # scrun -nodes=2 ./omp-hello ----------------------------------------------------------------------------- It seems that there is no lamd running on the host comp01.maizuru-ct.ac.jp. This indicates that the LAM/MPI runtime environment is not operating. The LAM/MPI runtime environment is necessary for MPI programs to run (the MPI program tired to invoke the "MPI_Init" function). Please run the "lamboot" command the start the LAM/MPI runtime environment. See the LAM/MPI documentation for how to invoke "lamboot" across multiple machines. ----------------------------------------------------------------------------- と出力されました。 出力どおりlambootを実行し、今度は以下のコマンドで実行したところ mpirun -np 2 -score ./omp-hello log on ... FEP:ERROR Unable to get resource requests. FEP:ERROR '/home/kamotti92/./omp-hello' might not be an SCore application. と出力され、実行できませんでした。 そもそもコメントアウトした時点でまちがっているのでしょうか? もし御存じでしたら、ご助言お願いします。 -- _/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄ 舞鶴工業高等専門学校 電気情報工学科 学生      加茂 勇太郎 e6837 @ g.maizuru-ct.ac.jp _/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄ From kameyama @ pccluster.org Wed Oct 27 18:09:52 2010 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Wed, 27 Oct 2010 18:09:52 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?T21uaSBPcGVuTVAbJEIkSyQqJDEbKEI=?= =?iso-2022-jp?b?GyRCJGslOyUwJWElcyVGITwlNyVnJXMwY0g/GyhC?= In-Reply-To: References: <4CC77BA8.9090906@pccluster.org> Message-ID: <4CC7EC60.3010607@pccluster.org> 亀山です. (10/27/10 17:16), Yutaro Kamo Wrote: > このとおりにソースをダウンロードしてコンパイルしたところ > omsc_vm_handler.c: In function `scash_vm_handler': > omsc_vm_handler.c:102: error: `sc' undeclared (first use in this function) > omsc_vm_handler.c:102: error: (Each undeclared identifier is reported only once > omsc_vm_handler.c:102: error: for each function it appears in.) > > と出て、makeに失敗してしまいます。 > 該当ソースの102行目の > GET_FAULT_INFO; > というソースをコメントアウトして 多分, ここの処理は 72 行目の //struct sigcontext* sc; を活かすことだと思います. > # scrun -nodes=2 ./omp-hello > ----------------------------------------------------------------------------- > > It seems that there is no lamd running on the host comp01.maizuru-ct.ac.jp. > > This indicates that the LAM/MPI runtime environment is not operating. > The LAM/MPI runtime environment is necessary for MPI programs to run > (the MPI program tired to invoke the "MPI_Init" function). > > Please run the "lamboot" command the start the LAM/MPI runtime > environment. See the LAM/MPI documentation for how to invoke > "lamboot" across multiple machines. > ----------------------------------------------------------------------------- > と出力されました。 こちらはまた別の問題で, SCore の mpi ではなく lam を使用して 作成してしまったようです. configure のとき --with-mpidir= で MPI ディレクトリを指定する必要があるそうです. 指定した directory のしたに lib/mpich.a が存在することを仮定しているので, 多分, /opt/score/6.0.2/mpi/mpich-1.2.5/i386-centos4-linux2_6_gnu あたりを指定することになると思います. Kameyama Toyohisa From e6837 @ g.maizuru-ct.ac.jp Wed Oct 27 20:46:42 2010 From: e6837 @ g.maizuru-ct.ac.jp (Yutaro Kamo) Date: Wed, 27 Oct 2010 20:46:42 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?T21uaSBPcGVuTVAbJEIkSyQqJDEbKEI=?= =?iso-2022-jp?b?GyRCJGslOyUwJWElcyVGITwlNyVnJXMwY0g/GyhC?= In-Reply-To: <4CC7EC60.3010607@pccluster.org> References: <4CC77BA8.9090906@pccluster.org> <4CC7EC60.3010607@pccluster.org> Message-ID: アドバイスありがとうございます。再びつまずいてしまったので、質問させていただきます。 教えていただいた手順通り作業するとコンパイルが完了し、omccのバイナリはインストールできましたが、いざコンパイルを行なおうとすると /usr/local/bin/omcc -omniconfig=scash-mpi omp-hello.c Warning: -ms16m not understood. Ignoring. Warning: -mx1024m not understood. Ignoring. Compiling 'omp-hello.c'... /opt/score/6.0.2/mpi/mpich-1.2.5/i386-centos4-linux2_6_gnu/lib/libmpich.a(initutil.o)(.text+0x1fa): In function `MPIR_Init': : undefined reference to `MPIR_InitFortranDatatypes' /opt/score/6.0.2/mpi/mpich-1.2.5/i386-centos4-linux2_6_gnu/lib/libmpich.a(initutil.o)(.text+0x698): In function `MPIR_Init': (以下同様の「関数がない」というエラーが続きます) というようなエラーが出力されて、コンパイルすることができません。 エラー文から見て、スタティックライブラリがきちんとロードされていないようにおもわれます。 念のためにomf77でも同様の試験を行ないましたが、同じ結果でした。 エラーの1つから抜粋したライブラリがあるかどうかを確認するために ar t /opt/score/6.0.2/mpi/mpich-1.2.5/i386-centos4-linux2_6_gnu/lib/libmpich.a | grep chbeager.o と実行したところ chbeager.o と出力されたので、静的ライブラリを作りそこねているようではないと考えられます。 コンパイル時になにか特別なオプションが必要なのでしょうか? よろしくお願いします。 -- _/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄ 舞鶴工業高等専門学校 電気情報工学科 学生      加茂 勇太郎 e6837 @ g.maizuru-ct.ac.jp _/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄ From kameyama @ pccluster.org Thu Oct 28 10:17:26 2010 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Thu, 28 Oct 2010 10:17:26 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?T21uaSBPcGVuTVAbJEIkSyQqJDEbKEI=?= =?iso-2022-jp?b?GyRCJGslOyUwJWElcyVGITwlNyVnJXMwY0g/GyhC?= In-Reply-To: References: <4CC77BA8.9090906@pccluster.org> <4CC7EC60.3010607@pccluster.org> Message-ID: <4CC8CF26.3060600@pccluster.org> 亀山です. (10/27/10 20:46), Yutaro Kamo Wrote: > 教えていただいた手順通り作業するとコンパイルが完了し、omccのバイナリはインストールできましたが、いざコンパイルを行なおうとすると > > /usr/local/bin/omcc -omniconfig=scash-mpi omp-hello.c Warning: -ms16m > not understood. Ignoring. Warning: -mx1024m not understood. Ignoring. > Compiling 'omp-hello.c'... > /opt/score/6.0.2/mpi/mpich-1.2.5/i386-centos4-linux2_6_gnu/lib/libmpich.a(initutil.o)(.text+0x1fa): > In function `MPIR_Init': > : undefined reference to `MPIR_InitFortranDatatypes' > /opt/score/6.0.2/mpi/mpich-1.2.5/i386-centos4-linux2_6_gnu/lib/libmpich.a(initutil.o)(.text+0x698): > In function `MPIR_Init': > (以下同様の「関数がない」というエラーが続きます) > > というようなエラーが出力されて、コンパイルすることができません。 MPIR_InitFortranDatatypes は /opt/score/6.0.2/mpi/mpich-1.2.5/i386-centos4-linux2_6_gnu/lib/libmpichf.a に含まれているようです. 多分 mpicc --showonly a.c で出てくる library をすべて指定すれば link できるとは思いますが... Kameyama Toyohisa From e6837 @ g.maizuru-ct.ac.jp Thu Oct 28 12:17:46 2010 From: e6837 @ g.maizuru-ct.ac.jp (Yutaro Kamo) Date: Thu, 28 Oct 2010 12:17:46 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?T21uaSBPcGVuTVAbJEIkSyQqJDEbKEI=?= =?iso-2022-jp?b?GyRCJGslOyUwJWElcyVGITwlNyVnJXMwY0g/GyhC?= In-Reply-To: <4CC8CF26.3060600@pccluster.org> References: <4CC77BA8.9090906@pccluster.org> <4CC7EC60.3010607@pccluster.org> <4CC8CF26.3060600@pccluster.org> Message-ID: 舞鶴高専の加茂です。亀山様、ご助言ありがとうございます。 > MPIR_InitFortranDatatypes は > /opt/score/6.0.2/mpi/mpich-1.2.5/i386-centos4-linux2_6_gnu/lib/libmpichf.a > に含まれているようです. > 多分 > mpicc --showonly a.c > で出てくる library をすべて指定すれば link できるとは思いますが... /usr/local/bin/omcc -omniconfig=scash-mpi -L/opt/score/6.0.2/mpi/mpich-1.2.5/i386-centos4-linux2_6_gnu/lib omp-hello.o -lpmpich -lmpichf -lmpich -lmpichffsup -lpmpich -lmpichf -lmpich -lmpichffsup -omscash -L/opt/score/6.0.2/deploy/obj.i386-centos4-linux2_6 -L/opt/score/6.0.2/lib/obj.i386-centos4-linux2_6 -L/opt/score/6.0.2/crt.i386-centos4-linux2_6/lib omp-hello.c として実行しましたが、やはり前回と同じ結果となりました。 そこでふと気がついて、SCoreインストール時にインストールされた方のomcc(/opt/omni/bin/omcc)を使用してコンパイルしたところ omcc -omniconfig=scash -o laplace_omp laplace_omp.c second.c -lm Compiling 'laplace_omp.c'... Compiling 'second.c'... と出力され、正常にコンパイルが完了しました。このバイナリが実行できるかどうか試したところ $ scrun -nodes=2 ./laplace_omp SCore-D 6.0.2 connected. <0:0> SCORE: 2 nodes (2x1) ready. sum = 53.2951 time=3.86334 と出力され、正常に動作しました。 原因を調査しましたが、はっきりとしたものは見つけることができませんでした。単にクライアントの調子が悪かったのかもしれません。 ひとまず、解決したことをお伝えいたします。 ご丁寧にご指摘くださったにもかかわらず、自己解決した上、その原因がわからないという無礼をお許しください。 -- _/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄ 舞鶴工業高等専門学校 電気情報工学科 学生      加茂 勇太郎 e6837 @ g.maizuru-ct.ac.jp _/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄_/ ̄