From yutaka_ishikawa @ me.com Tue Jun 14 12:30:00 2011 From: yutaka_ishikawa @ me.com (Yutaka Ishikawa) Date: Tue, 14 Jun 2011 12:30:00 +0900 (JST) Subject: [SCore-users-jp] =?iso-2022-jp?b?GyRCIVobKEI2LzIwGyRCMys6RSFbGyhC?= =?iso-2022-jp?b?GyRCPCFAJEJlJU0lQyVIJW8hPCUvNiZNLSVVJSElJCVrJTclOSVGGyhC?= =?iso-2022-jp?b?GyRCJWAbKEIiR2Zhcm0iIBskQiU7JV8lSiE8JE4kNDBGRmIbKEI=?= Message-ID: <20110614.123000.141908382.yutaka_ishikawa@me.com> SCoreユーザの皆様、 以下のセミナーのご案内をさせていただきます。参加費無料で、最新のGfarm情報を 得られます。 石川@東大 --------------------------------------------------------------- 次世代ネットワーク共有ファイルシステム"Gfarm" セミナー http://datafarm.apgrid.org/event/seminar01/ 日時:2011年6月20日(月)13:30-17:00(受付開始13:00) 会場:〒105-8535東京都港区海岸1-2-20 汐留ビルディング 11F 受付     NTTコミュニケーションズ プレゼンテーションルーム     http://www.ntt.com/aboutus/B02-010-shiodome.html 主催:産業技術総合研究所/筑波大学/NTTコミュニケーションズ/東京大学 対象:一般   参加費用:無料 お申し込み:事前登録制 https://www.jpgrid.org/gfarm/form/ =============================================== プログラム(予定・敬称略)  司会:伊藤 智 (産業技術総合研究所) 13:30-14:00 「Gfarm概要紹介」   建部 修見(筑波大学 計算科学研究センター) 14:00-14:30 「経済産業省プロジェクトにおけるGfarm関連開発」   高杉英利(NTTコミュニケーションズ 先端IPアーキテクチャセンタ) 14:30-14:50 「エンタープライズ向けGfarmの機能と品質、標準化動向」   大西健司(NTTコミュニケーションズ 先端IPアーキテクチャセンタ) 14:50-15:10 「GfarmとのAP(メール監査)連携事例」   高橋則行(デジタルアーツ株式会社) 15:10-15:30「GfarmとのAP(トレーサビリティ)連携事例」   永岡孝(NTTコミュニケーションズ 先端IPアーキテクチャセンタ) (休憩 15:30-15:50) 15:50-16:10 「計算素粒子物理学データグリッド JLDG」   吉江友照(筑波大学 計算科学研究センター) 16:10-16:30 「ワークフローシステムPwrakeによる科学データ処理」   田中昌宏(筑波大学 計算科学研究センター) 16:30- 17:00 ラップアップ    建部 修見(筑波大学) ========================================== お問い合わせ先 Gfarmセミナー事務局 gfarm-seminar @ m.aist.go.jp ========================================== From s.furuta @ jp.fujitsu.com Tue Jun 28 11:57:29 2011 From: s.furuta @ jp.fujitsu.com (=?ISO-2022-JP?B?GyRCOEVFRCEhQ1IbKEI=?=) Date: Tue, 28 Jun 2011 11:57:29 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU3LjAuMRskQiRHN2syTD1QGyhC?= =?iso-2022-jp?b?GyRCTk84ZSRLJVclbSVzJVclSCQsTGEkQyRGJDMkSiQkOD0+XSRLGyhC?= =?iso-2022-jp?b?GyRCJEQkJCRGGyhC?= Message-ID: <4E094319.2070009@jp.fujitsu.com> 富士通)古田と申します。 SCore7.0.1を使用して以下のプログラムを実行しています。 #include #include int main(int argc, char **argv) { char name[MPI_MAX_PROCESSOR_NAME]; int nprocs, procno, len; MPI_Init( &argc, &argv ); MPI_Comm_size( MPI_COMM_WORLD, &nprocs ); MPI_Comm_rank( MPI_COMM_WORLD, &procno ); MPI_Get_processor_name( name, &len ); name[len] = '\0'; printf( "Hello !! from %s@%d/%d\n", name, procno, nprocs ); MPI_Barrier( MPI_COMM_WORLD ); MPI_Finalize(); return( 0 ); } 上記のプログラムをgccでコンパイルし、実行モジュールをhello2として scrun -nodes=3x8 -groups=./hosts -network=ethernet ./hello2 として実行すると、結果出力後にプロンプトが戻ってこない現象が頻繁に 発生します。 発生した際に、計算ノードではhello2のプロセスが残っており、gdbで attachすると以下のような情報は獲得できました。 (gdb) where #0 0x00002b443d484808 in comp_receive (pmc=0x2b443ecd9000, bufp=0x7fff5cd6f950, sizep=0x7fff5cd6f948, descp=0x7fff5cd6f938) at ../composite.c:2560 #1 pmxReceive (pmc=0x2b443ecd9000, bufp=0x7fff5cd6f950, sizep=0x7fff5cd6f948, descp=0x7fff5cd6f938) at ../composite.c:2650 #2 0x00002b443d0418ec in MTMIT_BT_SCore_Recv (buf=0x7fff5cd6f950, len=0x7fff5cd6f948, desc=0x7fff5cd6f8c8) at ../../../libmtmi.work/transport/score/score.c:139 #3 0x00002b443d03bc36 in MTMIT_BT_Progress (dev=0x2b443d24aae0, handle=, etype=, may_block=1557592264) at ../../libmtmi.work/common/bttool.c:247 #4 0x00002b443d03ac55 in MTMIP_WaitEvent () at ../../libmtmi.work/common/core.c:393 #5 MTMI_WaitEvent () at ../../libmtmi.work/common/core.c:441 #6 0x00002b443cd7f657 in MPID_MTMI_progress () from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib /libmpich.so.1.2 #7 0x00002b443cd7f7cc in MPID_Progress_wait () from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib /libmpich.so.1.2 #8 0x00002b443cd72af4 in MPIC_Wait () from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib /libmpich.so.1.2 #9 0x00002b443cd73b0f in MPIC_Sendrecv () from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib /libmpich.so.1.2 #10 0x00002b443cd40069 in MPIR_Barrier () from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib /libmpich.so.1.2 #11 0x00002b443cd40556 in PMPI_Barrier () from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib /libmpich.so.1.2 #12 0x000000000040096b in main () (gdb) quit 何が原因かお分かりになりますでしょうか。 以上、よろしくお願い申し上げます。 -- 古田 智(s.furuta @ jp.fujitsu.com) From kameyama @ riken.jp Tue Jun 28 14:09:42 2011 From: kameyama @ riken.jp (Kameyama Toyohisa) Date: Tue, 28 Jun 2011 14:09:42 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU3LjAuMRskQiRHN2syTD1QGyhC?= =?iso-2022-jp?b?GyRCTk84ZSRLJVclbSVzJVclSCQsTGEkQyRGJDMkSiQkOD0+XSRLGyhC?= =?iso-2022-jp?b?GyRCJEQkJCRGGyhC?= In-Reply-To: <4E094319.2070009@jp.fujitsu.com> References: <4E094319.2070009@jp.fujitsu.com> Message-ID: <4E096216.5070504@riken.jp> 亀山です. (2011年06月28日 11:57), 古田 智 wrote: > 上記のプログラムをgccでコンパイルし、実行モジュールをhello2として > scrun -nodes=3x8 -groups=./hosts -network=ethernet ./hello2 > として実行すると、結果出力後にプロンプトが戻ってこない現象が頻繁に > 発生します。 > > 発生した際に、計算ノードではhello2のプロセスが残っており、gdbで > attachすると以下のような情報は獲得できました。 なんか MPI_Barrier が終わらないみたいですね... hello2 のプロセスは 24 個とも残っているのでしょうか? もしかしたら http://www.pccluster.org/pipermail/score-users-jp/2010-October/003612.html の操作でなんとかなるとか... (すみません. こちらで再現できないので...) Kameyama Toyohisa From s.furuta @ jp.fujitsu.com Tue Jun 28 18:29:55 2011 From: s.furuta @ jp.fujitsu.com (=?ISO-2022-JP?B?GyRCOEVFRCEhQ1IbKEI=?=) Date: Tue, 28 Jun 2011 18:29:55 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU3LjAuMRskQiRHN2syTD1QGyhC?= =?iso-2022-jp?b?GyRCTk84ZSRLJVclbSVzJVclSCQsTGEkQyRGJDMkSiQkOD0+XSRLGyhC?= =?iso-2022-jp?b?GyRCJEQkJCRGGyhC?= In-Reply-To: <4E096216.5070504@riken.jp> References: <4E094319.2070009@jp.fujitsu.com> <4E096216.5070504@riken.jp> Message-ID: <4E099F13.7010403@jp.fujitsu.com> 亀山様 古田です。 ご回答ありがとうございます。 > なんか MPI_Barrier が終わらないみたいですね... > hello2 のプロセスは 24 個とも残っているのでしょうか? > その時によりますが、だいたい2,3個残ります。 > もしかしたら > > http://www.pccluster.org/pipermail/score-users-jp/2010-October/003612.html > の操作でなんとかなるとか... 上記も試しましたが、駄目でした。 その他、何か試せることや回避策などあれば、ご教授頂けると幸いです。 以上、よろしくお願いいたします。 (2011/06/28 14:09), Kameyama Toyohisa wrote: > 亀山です. > > (2011年06月28日 11:57), 古田 智 wrote: >> 上記のプログラムをgccでコンパイルし、実行モジュールをhello2として >> scrun -nodes=3x8 -groups=./hosts -network=ethernet ./hello2 >> として実行すると、結果出力後にプロンプトが戻ってこない現象が頻繁に >> 発生します。 >> >> 発生した際に、計算ノードではhello2のプロセスが残っており、gdbで >> attachすると以下のような情報は獲得できました。 > > なんか MPI_Barrier が終わらないみたいですね... > hello2 のプロセスは 24 個とも残っているのでしょうか? > > もしかしたら > > http://www.pccluster.org/pipermail/score-users-jp/2010-October/003612.html > の操作でなんとかなるとか... > > (すみません. > こちらで再現できないので...) > > Kameyama Toyohisa > > From kameyama @ riken.jp Tue Jun 28 18:50:06 2011 From: kameyama @ riken.jp (Kameyama Toyohisa) Date: Tue, 28 Jun 2011 18:50:06 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU3LjAuMRskQiRHN2syTD1QGyhC?= =?iso-2022-jp?b?GyRCTk84ZSRLJVclbSVzJVclSCQsTGEkQyRGJDMkSiQkOD0+XSRLGyhC?= =?iso-2022-jp?b?GyRCJEQkJCRGGyhC?= In-Reply-To: <4E099F13.7010403@jp.fujitsu.com> References: <4E094319.2070009@jp.fujitsu.com> <4E096216.5070504@riken.jp> <4E099F13.7010403@jp.fujitsu.com> Message-ID: <4E09A3CE.2030204@riken.jp> 亀屋まです. (2011年06月28日 18:29), 古田 智 wrote: >> なんか MPI_Barrier が終わらないみたいですね... >> hello2 のプロセスは 24 個とも残っているのでしょうか? >> > > その時によりますが、だいたい2,3個残ります。 やはり MPI_barrier がきちんと動いていないような... PMX/Ethernet の問題のような気はするのですが, network=sctp と scto を使用した場合は動きますでしょうか? Kameyama Toyohisa From s.furuta @ jp.fujitsu.com Wed Jun 29 19:48:29 2011 From: s.furuta @ jp.fujitsu.com (=?ISO-2022-JP?B?GyRCOEVFRCEhQ1IbKEI=?=) Date: Wed, 29 Jun 2011 19:48:29 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU3LjAuMRskQiRHN2syTD1QGyhC?= =?iso-2022-jp?b?GyRCTk84ZSRLJVclbSVzJVclSCQsTGEkQyRGJDMkSiQkOD0+XSRLGyhC?= =?iso-2022-jp?b?GyRCJEQkJCRGGyhC?= In-Reply-To: <4E09A3CE.2030204@riken.jp> References: <4E094319.2070009@jp.fujitsu.com> <4E096216.5070504@riken.jp> <4E099F13.7010403@jp.fujitsu.com> <4E09A3CE.2030204@riken.jp> Message-ID: <4E0B02FD.8000204@jp.fujitsu.com> 亀山様 古田です。 ご回答ありがとうございます。 > PMX/Ethernet の問題のような気はするのですが, > network=sctp > と scto を使用した場合は動きますでしょうか? hello プログラムをnetwork=sctpを使用して実行してみたところ 正常に結果が返ってきました。 しかし、 http://www.pccluster.org/pipermail/score-users-jp/2010-October/003609.html にて報告されていたサンプルプログラムは、sctpを設定しても 動作しませんでした。 こちらの事情を補足いたしますと、最終的に動作させたいプログラムは 別にあるのですが、内容が複雑なため、簡単なサンプルをいくつか使用して 動作を検証しております。 上記のプログラムをf90でコンパイルし、実行モジュールをa.outとして scrun -nodes=3x8 -groups=./hosts -network=sctp ./a.out として実行すると、やはり結果出力後にプロンプトが戻ってこない現象が頻繁に 発生しました。 発生した際に、計算ノードではa.outのプロセスが残っていたのも同様でして、 gdbでattachすると以下のような情報が獲得できました。 (gdb) where #0 0x000000304960ddcb in recvmsg () from /lib64/libpthread.so.0 #1 0x00002b1de95fffca in sctp_recvmsg () from /usr/lib64/libsctp.so.1 #2 0x00002b1de93e1a1f in PMX_sctp_receive (pmm=0xc18e2e0, bufp=0x7fff6fefdf90, sizep=0x7fff6fefdf88, descp=0x7fff6fefdf08) at ../sctp.c:968 #3 0x00002b1de77fc819 in comp_receive (pmc=0x2b1de92e8000, bufp=0x7fff6fefdf90, sizep=0x7fff6fefdf88, descp=0x7fff6fefdf78) at ../composite.c:2560 #4 pmxReceive (pmc=0x2b1de92e8000, bufp=0x7fff6fefdf90, sizep=0x7fff6fefdf88, descp=0x7fff6fefdf78) at ../composite.c:2650 #5 0x00002b1de73b98ec in MTMIT_BT_SCore_Recv (buf=0xfffffffffffffff5, len=0x0, desc=0xffffffffffffffff) at ../../../libmtmi.work/transport/score/score.c:139 #6 0x00002b1de73b3c36 in MTMIT_BT_Progress (dev=0x2b1de75c2ae0, handle=, etype=, may_block=-1) at ../../libmtmi.work/common/bttool.c:247 #7 0x00002b1de73b17be in MTMIP_WaitEvent (ytreq=178957248, st=0x7fff6fefe070, priv=0x7fff6fefe0a0) at ../../libmtmi.work/common/core.c:393 #8 MTMI_Wait (ytreq=178957248, st=0x7fff6fefe070, priv=0x7fff6fefe0a0) at ../../libmtmi.work/common/core.c:1220 #9 0x00002b1de70f6a06 in MPID_Recv () from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib /libmpich.so.1.2 #10 0x00002b1de710b4c7 in PMPI_Recv () from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib /libmpich.so.1.2 #11 0x00002b1de710c121 in pmpi_recv__ () from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib /libmpich.so.1.2 #12 0x0000000000400cab in MAIN__ () #13 0x0000000000400d4e in main () (gdb) また、同じプログラムをethernetを指定して実行した場合も同様に停止いたしまして gdb でattachすると以下のようになります。 (gdb) where #0 MTMIT_BT_Progress (dev=0x2b698745fae0, handle=0x0, etype=0, may_block=1) at ../../libmtmi.work/common/bttool.c:235 #1 0x00002b698724e7be in MTMIP_WaitEvent (ytreq=103211264, st=0x7fffec3ed1a0, priv=0x7fffec3ed1d0) at ../../libmtmi.work/common/core.c:393 #2 MTMI_Wait (ytreq=103211264, st=0x7fffec3ed1a0, priv=0x7fffec3ed1d0) at ../../libmtmi.work/common/core.c:1220 #3 0x00002b6986f93a06 in MPID_Recv () from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib /libmpich.so.1.2 #4 0x00002b6986fa84c7 in PMPI_Recv () from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib /libmpich.so.1.2 #5 0x00002b6986fa9121 in pmpi_recv__ () from /opt/score/7.0.1/mpi/mpich2/x86_64-rhel5-linux2_6/1.2.1-ch_score-gnu/lib /libmpich.so.1.2 #6 0x0000000000400cab in MAIN__ () #7 0x0000000000400d4e in main () (gdb) お忙しいところ申し訳ございませんが、何かアドバイス等 頂けると幸いです。 以上、よろしくお願いいたします。 (2011/06/28 18:50), Kameyama Toyohisa wrote: > 亀屋まです. > > (2011年06月28日 18:29), 古田 智 wrote: >>> なんか MPI_Barrier が終わらないみたいですね... >>> hello2 のプロセスは 24 個とも残っているのでしょうか? >>> >> >> その時によりますが、だいたい2,3個残ります。 > > やはり MPI_barrier がきちんと動いていないような... > > PMX/Ethernet の問題のような気はするのですが, > network=sctp > と scto を使用した場合は動きますでしょうか? > > Kameyama Toyohisa > >