From yosukeys @ yahoo.co.jp Thu Jul 5 17:50:10 2012 From: yosukeys @ yahoo.co.jp (=?iso-2022-jp?B?GyRCTmtMWhsoQiAbJEJNWzJwGyhC?=) Date: Thu, 5 Jul 2012 17:50:10 +0900 (JST) Subject: [SCore-users-jp] =?iso-2022-jp?b?WzU0XSBNVE1JOiBmYXRhbCBlcnJvciAo?= =?iso-2022-jp?b?MHgxKTogc2NvcmVfYXR0YWNoX25ldHdvcmsoKSBmYWlsZWQ6IDEy?= =?iso-2022-jp?b?GyRCISEbKEI8MTM+IFNDT1JFOiBQcm9ncmFtIHNpZ25hbGVkIChBYm9y?= =?iso-2022-jp?b?dGVkKS4bJEIkSyREJCQkRhsoQg==?= Message-ID: <574235.37374.qm@web100818.mail.kks.yahoo.co.jp> 竈山様 神奈川大学 鈴木陽介と申します 以前、SCore Release 7.0.1Bataの構築の際、 お世話になったものです。 何とか動くようになりました。 その際はありがとうございました。 さて、今回の質問ですが、 SCore Release 7.0.1Bata環境で、 サーバx1台計算ホストx16台、を定義したつもりです。 うまくいきません。どのように切り分けたらよいのかわかりません。 ご教授ください。よろしくお願いします。 今回も前回同様、http://www.pccluster.org/score_doc/score-7.0.1/SetupSCore.txt を参考にして、定義しました。 必要な設定を完了後、以下の手順でコマンド を実行すると  -node=4x4 まではうまくいきます。 具体は、以下のコマンドを実行すると # scout -g machinefile #mpicc hello.c #scrun -group=machinefile -node=4x4 -network=ethernet ./a.out | sort SCore (7.0.1) Connected SCORE{1} 16 nodes (4x4) ready. Hello !! from host001.pccluster.org @ 0/16 Hello !! from host001.pccluster.org @ 1/16 Hello !! from host001.pccluster.org @ 2/16 Hello !! from host001.pccluster.org @ 3/16 Hello !! from host002.pccluster.org @ 4/16 Hello !! from host002.pccluster.org @ 5/16 Hello !! from host002.pccluster.org @ 6/16 Hello !! from host002.pccluster.org @ 7/16 Hello !! from host003.pccluster.org @ 10/16 Hello !! from host003.pccluster.org @ 11/16 Hello !! from host003.pccluster.org @ 8/16 Hello !! from host003.pccluster.org @ 9/16 Hello !! from host004.pccluster.org @ 12/16 Hello !! from host004.pccluster.org @ 13/16 Hello !! from host004.pccluster.org @ 14/16 Hello !! from host004.pccluster.org @ 15/16 4台まで応答します。 しかし、 -node=16x4 で実行すると、エラーになってしまいます。 また、 -node=5x4 で実行でも、エラーになってしまいます。 host005からhost016が応答しません。 #scout -g machinefile SCOUT: session started. # mpicc hello.c # scrun -group=machinefile -node=16x4 -network=ethernet ./a.out SCore (7.0.1) Connected SCORE{1} 64 nodes (16x4) ready. [54] MTMI: fatal error (0x1): score_attach_network() failed: 12 <13> SCORE: Program signaled (Aborted). ただし、マシンファイルに定義してある計算ホストは 以下のとおり、host001〜host016の16台あります。 どうして、SCORE{1} 64 nodes (16x4) readyであるのに. [54] MTMI: fatal error (0x1): になってしまうのしょうか? 追加の設定が必要でしょうか? 設定の過程で、host0xx.pccluster.org: OK とOKの応答も確認しています。 参考までに、設定した内容を以下に付けておきます。 [root @ server3 sc01]# . /etc/profile.d/score.sh [root @ server3 sc01]# sceptic -g machinefile -v host014.pccluster.org: OK host013.pccluster.org: OK host006.pccluster.org: OK host015.pccluster.org: OK host004.pccluster.org: OK host011.pccluster.org: OK host010.pccluster.org: OK host012.pccluster.org: OK host003.pccluster.org: OK host008.pccluster.org: OK host007.pccluster.org: OK host001.pccluster.org: OK host016.pccluster.org: OK host005.pccluster.org: OK host009.pccluster.org: OK host002.pccluster.org: OK [root @ server3 ~]# cd /home/sc01 [root @ server3 sc01]# ls -l machinefile -rw-r--r-- 1 root root 352 2月 4 2011 machinefile [root @ server3 sc01]# ls -l machinefile -rw-r--r-- 1 root root 352 2月 4 2011 machinefile [root @ server3 sc01]# cat machinefile host001.pccluster.org host002.pccluster.org host003.pccluster.org host004.pccluster.org host005.pccluster.org host006.pccluster.org host007.pccluster.org host008.pccluster.org host009.pccluster.org host010.pccluster.org host011.pccluster.org host012.pccluster.org host013.pccluster.org host014.pccluster.org host015.pccluster.org host016.pccluster.org [root @ server3 sc01]# ls -l hello.c -rw-r--r-- 1 root root 460 7月 5 14:49 hello.c [root @ server3 sc01]# vi hello.c #include #include int main(int argc, char **argv) { char name[MPI_MAX_PROCESSOR_NAME]; int nprocs, procno, len; MPI_Init( &argc, &argv ); MPI_Comm_size( MPI_COMM_WORLD, &nprocs ); MPI_Comm_rank( MPI_COMM_WORLD, &procno ); MPI_Get_processor_name( name, &len ); name[len] = '\0'; printf( "Hello !! from %s@%d/%d\n", name, procno, nprocs ); MPI_Barrier( MPI_COMM_WORLD ); MPI_Finalize(); return( 0 ); } [root @ server3 sc01]# bash [root @ server3 sc01]# export SCORE_RSH=rsh ※sshではなく、export SCORE_RSH=rsh で指定すること [root @ server3 sc01]# . /etc/profile.d/score.sh [root @ server3 sc01]# sceptic -g machinefile -v host014.pccluster.org: OK host013.pccluster.org: OK host006.pccluster.org: OK host015.pccluster.org: OK host004.pccluster.org: OK host011.pccluster.org: OK host010.pccluster.org: OK host012.pccluster.org: OK host003.pccluster.org: OK host008.pccluster.org: OK host007.pccluster.org: OK host001.pccluster.org: OK host016.pccluster.org: OK host005.pccluster.org: OK host009.pccluster.org: OK host002.pccluster.org: OK All host responding. [root @ server3 sc01]# bash [root @ server3 sc01]# . /etc/profile.d/score.sh [root @ server3 sc01]# rsh-all -q -s -P -g machinefile uptime 2> /dev/null 14:53:10 up 37 days, 22:17, 1 user, load average: 0.00, 0.00, 0.00 14:53:10 up 37 days, 22:17, 0 users, load average: 0.00, 0.00, 0.00 14:53:10 up 37 days, 22:17, 0 users, load average: 0.02, 0.01, 0.00 14:53:10 up 37 days, 22:16, 0 users, load average: 0.00, 0.00, 0.00 14:53:11 up 37 days, 22:17, 0 users, load average: 0.00, 0.00, 0.00 13:44:11 up 37 days, 22:16, 0 users, load average: 0.00, 0.00, 0.00 13:52:58 up 37 days, 22:16, 0 users, load average: 0.00, 0.00, 0.00 13:46:37 up 37 days, 22:16, 0 users, load average: 0.00, 0.00, 0.00 14:53:11 up 37 days, 22:16, 0 users, load average: 0.00, 0.00, 0.00 14:51:50 up 37 days, 22:16, 0 users, load average: 0.00, 0.00, 0.00 13:52:55 up 37 days, 22:16, 0 users, load average: 0.00, 0.00, 0.00 14:53:05 up 37 days, 22:16, 0 users, load average: 0.00, 0.00, 0.00 14:52:51 up 37 days, 22:16, 0 users, load average: 0.00, 0.00, 0.00 14:54:20 up 37 days, 22:16, 0 users, load average: 0.00, 0.00, 0.00 14:53:11 up 37 days, 22:16, 0 users, load average: 0.00, 0.00, 0.00 14:54:02 up 37 days, 22:16, 0 users, load average: 0.00, 0.00, 0.00 [root @ server3 sc01]# bash \root @ server3 sc01]# rsh-all -q -s -P -g machinefile /opt/score/sbin/scbdrec 2> > /dev/null > /opt/score/etc/scorehosts.db [root @ server3 sc01]# reboot Broadcast message from root (pts/2) (Thu Jul 5 14:54:26 2012): The system is going down for reboot NOW! [root @ server3 sc01]# Connection to 192.168.0.203 closed by remote host. Connection to 192.168.0.203 closed. [root @ server3 sc01]# scout -g machinefile SCOUT: session started. [root @ server3 sc01]# mpicc hello.c [root @ server3 sc01]# scrun -group=machinefile -node=4x4 -network=ethernet ./a.out | sort SCore (7.0.1) Connected SCORE{1} 16 nodes (4x4) ready. Hello !! from host001.pccluster.org @ 0/16 Hello !! from host001.pccluster.org @ 1/16 Hello !! from host001.pccluster.org @ 2/16 Hello !! from host001.pccluster.org @ 3/16 Hello !! from host002.pccluster.org @ 4/16 Hello !! from host002.pccluster.org @ 5/16 Hello !! from host002.pccluster.org @ 6/16 Hello !! from host002.pccluster.org @ 7/16 Hello !! from host003.pccluster.org @ 10/16 Hello !! from host003.pccluster.org @ 11/16 Hello !! from host003.pccluster.org @ 8/16 Hello !! from host003.pccluster.org @ 9/16 Hello !! from host004.pccluster.org @ 12/16 Hello !! from host004.pccluster.org @ 13/16 Hello !! from host004.pccluster.org @ 14/16 Hello !! from host004.pccluster.org @ 15/16 以 上 From kameyama @ riken.jp Thu Jul 5 18:58:23 2012 From: kameyama @ riken.jp (Kameyama Toyohisa) Date: Thu, 05 Jul 2012 18:58:23 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?WzU0XSBNVE1JOiBmYXRhbCBlcnJvciAo?= =?iso-2022-jp?b?MHgxKTogc2NvcmVfYXR0YWNoX25ldHdvcmsoKSBmYWlsZWQ6IDEy?= =?iso-2022-jp?b?GyRCISEbKEI8MTM+IFNDT1JFOiBQcm9ncmFtIHNpZ25hbGVkIChBYm9y?= =?iso-2022-jp?b?dGVkKS4bJEIkSyREJCQkRhsoQg==?= In-Reply-To: <574235.37374.qm@web100818.mail.kks.yahoo.co.jp> References: <574235.37374.qm@web100818.mail.kks.yahoo.co.jp> Message-ID: <4FF5653F.3060007@riken.jp> 亀山です. (2012年07月05日 17:50), 鈴木 陽介 wrote: > しかし、 -node=16x4 で実行すると、エラーになってしまいます。 > また、 -node=5x4 で実行でも、エラーになってしまいます。 > > host005からhost016が応答しません。 とりあえず, 環境変数 SCORE_MESSAGE を ALL:2 にして実行してみて ください. もう少し詳しいことがわかると思います. Kameyama Toyohisa From yosukeys @ yahoo.co.jp Wed Jul 11 00:01:48 2012 From: yosukeys @ yahoo.co.jp (=?iso-2022-jp?B?GyRCTmtMWhsoQiAbJEJNWzJwGyhC?=) Date: Wed, 11 Jul 2012 00:01:48 +0900 (JST) Subject: [SCore-users-jp] =?iso-2022-jp?b?WzU0XSBNVE1JOiBmYXRhbCBlcnJvciAo?= =?iso-2022-jp?b?MHgxKTogc2NvcmVfYXR0YWNoX25ldHdvcmsoKSBmYWlsZWQ6IDEy?= =?iso-2022-jp?b?GyRCISEbKEI8MTM+IFNDT1JFOiBQcm9ncmFtIHNpZ25hbGVkIChBYm9y?= =?iso-2022-jp?b?dGVkKS4bJEIkSyREJCQkRhsoQg==?= In-Reply-To: <4FF5653F.3060007@riken.jp> Message-ID: <661458.46046.qm@web100804.mail.kks.yahoo.co.jp> 神奈川大学 鈴木です。 勉強不足で、申し訳けありません。 指定の方法がわかりません。ご教授ください。 >環境変数 SCORE_MESSAGE を ALL:2 にして実行 以下を追加で、コマンドラインから実行すればよいのでしょうか? #bash # export SCORE_MESSAGE=ALL:2 環境変数の設定に関するにドキュメントはどこにありますか? 以 上 --- On Thu, 2012/7/5, Kameyama Toyohisa wrote: > 亀山です. > > (2012年07月05日 17:50), 鈴木 陽介 wrote: > > しかし、 -node=16x4 で実行すると、エラーになってしまいます。 > > また、 -node=5x4 で実行でも、エラーになってしまいます。 > > > > host005からhost016が応答しません。 > > とりあえず, 環境変数 SCORE_MESSAGE を ALL:2 にして実行してみて > ください. > もう少し詳しいことがわかると思います. > > Kameyama Toyohisa > From kameyama @ pccluster.org Wed Jul 11 09:16:06 2012 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Wed, 11 Jul 2012 09:16:06 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?WzU0XSBNVE1JOiBmYXRhbCBlcnJvciAo?= =?iso-2022-jp?b?MHgxKTogc2NvcmVfYXR0YWNoX25ldHdvcmsoKSBmYWlsZWQ6IDEy?= =?iso-2022-jp?b?GyRCISEbKEI8MTM+IFNDT1JFOiBQcm9ncmFtIHNpZ25hbGVkIChBYm9y?= =?iso-2022-jp?b?dGVkKS4bJEIkSyREJCQkRhsoQg==?= In-Reply-To: <661458.46046.qm@web100804.mail.kks.yahoo.co.jp> References: <661458.46046.qm@web100804.mail.kks.yahoo.co.jp> Message-ID: <4FFCC5C6.10507@pccluster.org> 亀山です. (2012年07月11日 00:01), 鈴木 陽介 wrote: > 指定の方法がわかりません。ご教授ください。 > > >環境変数 SCORE_MESSAGE を ALL:2 にして実行 > > 以下を追加で、コマンドラインから実行すればよいのでしょうか? > > #bash > # export SCORE_MESSAGE=ALL:2 それでも良いですし, scrun にだけ渡すには $ SCORE_MESSAGE=ALL:2 scrun ... のようにコマンドの前に環境変数を書くこともできます. > 環境変数の設定に関するにドキュメントはどこにありますか? 環境変数設定の一般的な話でしたら, bash の man page でしょうか? Kameyama Toyohisa From yosukeys @ yahoo.co.jp Wed Jul 11 11:59:13 2012 From: yosukeys @ yahoo.co.jp (=?utf-8?B?6Yi05pyoIOmZveS7iw==?=) Date: Wed, 11 Jul 2012 11:59:13 +0900 (JST) Subject: [SCore-users-jp] =?utf-8?q?=5B54=5D_MTMI=3A_fatal_error_=280x1=29?= =?utf-8?b?OiBzY29yZV9hdHRhY2hfbmV0d29yaygpIGZhaWxlZDogMTLjgIA8MTM+IFND?= =?utf-8?b?T1JFOiBQcm9ncmFtIHNpZ25hbGVkIChBYm9ydGVkKS7jgavjgaTjgYTjgaY=?= In-Reply-To: <4FFCC5C6.10507@pccluster.org> Message-ID: <526002.72330.qm@web100812.mail.kks.yahoo.co.jp> 竈山様 神奈川大学 鈴木陽介です。 > 環境変数設定の一般的な話でしたら, bash の man page でしょうか? >Linuxの環境変数に追加すればよいのでした。 失礼しました。 ●「環境変数 SCORE_MESSAGE を ALL:2」にしました。 #bash # export SCORE_MESSAGE=ALL:2 ●printenvで確認 # printenv | grep SCO SCOUT_CSH_OPTION=-f SCOUT_TCSH_OPTION=-f SCORE_RSH=/usr/bin/rsh SCORE_MESSAGE=ALL:2 ●とりあえず、mpicc hello.cを実行しました。結果をメールさせていただきます。 ※http://www.pccluster.org/score_doc/score-7.0.1/SetupSCore.txtの STEP5?7実行していません。 環境変数を追加して実行しました。 pmEthernetSetupContext() at ethernet.c:178 !!ERROR!! 上記のエラーの意味が解読できないので 結果をメールさせていただきます。 よろしくお願いします。 # pwd /root # cd /home/sc01 # scout -g machinefile SCOUT: session started. # mpicc hello.c #scrun -group=machinefile -node=16x4 -network=ethernet ./a.out >実行結果です。 SCORE{1} 64 nodes (16x4) ready. A.OUT @ host008#7840 >>>>>>>>>>>> BEGIN BACKTRACE <<<<<<<<<<<< A.OUT @ host008[[30/64]]#7840: score_init() at init.c:302 optstr=FEP=server3.pccluster.org:47906,scheduler=none,wdir=/home/sc01,node=16x4,network=ethernet A.OUT @ host008[[30/64]]#7840: score_attach_network() at init.c:478 A.OUT @ host008[[30/64]]#7840: open_context() at init.c:402 A.OUT @ host008[[30/64]]#7840: err=pmxOpen(score_init_pmkey,optflags,&pmc,NULL) at init.c:426 A.OUT @ host008[[30/64]]#7840: open_context() at init.c:434 pmxAddMember(ethernet) A.OUT @ host008[[30/64]]#7840: err=pmxAddMember(pmc,net->name) at init.c:435 A.OUT @ host008[30/64:2/4]#7840: PMX_ethernet_open_member() at ethernet.c:412 A.OUT @ host008[30/64:2/4]#7840: err=pmxCompositeGetConfig(pcc,&key,&flags,&nnodes,&nprocs,&procno) at ethernet.c:413 A.OUT @ host008#7840 <<<<<<<<<<<<< END BACKTRACE >>>>>>>>>>>>> A.OUT @ host008[30/64:2/4]#7840: CALL pmEthernetSetupContext() at ethernet.c:178 !!ERROR!! cannot set key 16. errno is 12 A.OUT @ host008#7840 <><><><><<><> (no trace available) <><><><><<><> A.OUT @ host008[30/64:2/4]#7840: CALL PMX_ethernet_open_member() at ethernet.c:485 !!ERROR!! cannot setup context A.OUT @ host014#1680 >>>>>>>>>>>> BEGIN BACKTRACE <<<<<<<<<<<< A.OUT @ host014[[53/64]]#1680: score_init() at init.c:302 optstr=FEP=server3.pccluster.org:47906,scheduler=none,wdir=/home/sc01,node=16x4,network=ethernet A.OUT @ host014[[53/64]]#1680: score_attach_network() at init.c:478 A.OUT @ host014[[53/64]]#1680: open_context() at init.c:402 A.OUT @ host014[[53/64]]#1680: err=pmxOpen(score_init_pmkey,optflags,&pmc,NULL) at init.c:426 A.OUT @ host014[[53/64]]#1680: open_context() at init.c:434 pmxAddMember(ethernet) A.OUT @ host014[[53/64]]#1680: err=pmxAddMember(pmc,net->name) at init.c:435 A.OUT @ host014[53/64:1/4]#1680: PMX_ethernet_open_member() at ethernet.c:412 A.OUT @ host014[53/64:1/4]#1680: err=pmxCompositeGetConfig(pcc,&key,&flags,&nnodes,&nprocs,&procno) at ethernet.c:413 A.OUT @ host014#1680 <<<<<<<<<<<<< END BACKTRACE >>>>>>>>>>>>> A.OUT @ host014[53/64:1/4]#1680: CALL pmEthernetSetupContext() at ethernet.c:178 !!ERROR!! cannot set key 16. errno is 12 A.OUT @ host014#1680 <><><><><<><> (no trace available) <><><><><<><> A.OUT @ host014[53/64:1/4]#1680: CALL PMX_ethernet_open_member() at ethernet.c:485 !!ERROR!! cannot setup context A.OUT @ host005#11737 >>>>>>>>>>>> BEGIN BACKTRACE <<<<<<<<<<<< A.OUT @ host005[[19/64]]#11737: score_init() at init.c:302 optstr=FEP=server3.pccluster.org:47906,scheduler=none,wdir=/home/sc01,node=16x4,network=ethernet A.OUT @ host005[[19/64]]#11737: score_attach_network() at init.c:478 A.OUT @ host005[[19/64]]#11737: open_context() at init.c:402 A.OUT @ host005[[19/64]]#11737: err=pmxOpen(score_init_pmkey,optflags,&pmc,NULL) at init.c:426 A.OUT @ host005[[19/64]]#11737: open_context() at init.c:434 pmxAddMember(ethernet) A.OUT @ host005[[19/64]]#11737: err=pmxAddMember(pmc,net->name) at init.c:435 A.OUT @ host005[19/64:3/4]#11737: PMX_ethernet_open_member() at ethernet.c:412 A.OUT @ host005[19/64:3/4]#11737: err=pmxCompositeGetConfig(pcc,&key,&flags,&nnodes,&nprocs,&procno) at ethernet.c:413 A.OUT @ host005#11737 <<<<<<<<<<<<< END BACKTRACE >>>>>>>>>>>>> A.OUT @ host005[19/64:3/4]#11737: CALL pmEthernetSetupContext() at ethernet.c:178 !!ERROR!! cannot set key 16. errno is 12 A.OUT @ host005#11737 <><><><><<><> (no trace available) <><><><><<><> A.OUT @ host005[19/64:3/4]#11737: CALL PMX_ethernet_open_member() at ethernet.c:485 !!ERROR!! cannot setup context <7> SCORE: Program signaled (Aborted). 以 上 --- On Wed, 2012/7/11, Kameyama Toyohisa wrote: > 亀山です. > > (2012年07月11日 00:01), 鈴木 陽介 wrote: > > 指定の方法がわかりません。ご教授ください。 > > > > >環境変数 SCORE_MESSAGE を ALL:2 にして実行 > > > > 以下を追加で、コマンドラインから実行すればよいのでしょうか? > > > > #bash > > # export SCORE_MESSAGE=ALL:2 > > それでも良いですし, scrun にだけ渡すには > ? ? $ SCORE_MESSAGE=ALL:2 scrun ... > のようにコマンドの前に環境変数を書くこともできます. > > > 環境変数の設定に関するにドキュメントはどこにありますか? > > 環境変数設定の一般的な話でしたら, bash の man page でしょうか? > > Kameyama Toyohisa > From kameyama @ pccluster.org Wed Jul 11 13:35:36 2012 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Wed, 11 Jul 2012 13:35:36 +0900 Subject: [SCore-users-jp] =?utf-8?q?=5B54=5D_MTMI=3A_fatal_error_=280x1=29?= =?utf-8?b?OiBzY29yZV9hdHRhY2hfbmV0d29yaygpIGZhaWxlZDogMTLjgIA8MTM+IFND?= =?utf-8?b?T1JFOiBQcm9ncmFtIHNpZ25hbGVkIChBYm9ydGVkKS7jgavjgaTjgYTjgaY=?= In-Reply-To: <526002.72330.qm@web100812.mail.kks.yahoo.co.jp> References: <526002.72330.qm@web100812.mail.kks.yahoo.co.jp> Message-ID: <4FFD0298.9020904@pccluster.org> 亀山です. (2012年07月11日 11:59), 鈴木 陽介 wrote: > A.OUT @ host008[30/64:2/4]#7840: CALL pmEthernetSetupContext() at ethernet.c:178 !!ERROR!! cannot set key 16. errno is 12 PMX/Ethernet は通信のための memory を確保しているのですが, その memory の確保に失敗しているようです. (dmesg で見ればどの memory の確保で失敗したかが分かりますが...) 計算ホストにどれくらいの memory がありますでしょうか? 他の process やドライバがメモリを占有していないでしょうか? Kameyama Toyohisa From yosukeys @ yahoo.co.jp Wed Jul 11 17:25:53 2012 From: yosukeys @ yahoo.co.jp (=?utf-8?B?6Yi05pyoIOmZveS7iw==?=) Date: Wed, 11 Jul 2012 17:25:53 +0900 (JST) Subject: [SCore-users-jp] =?utf-8?q?=5B54=5D_MTMI=3A_fatal_error_=280x1=29?= =?utf-8?b?OiBzY29yZV9hdHRhY2hfbmV0d29yaygpIGZhaWxlZDogMTLjgIA8MTM+IFND?= =?utf-8?b?T1JFOiBQcm9ncmFtIHNpZ25hbGVkIChBYm9ydGVkKS7jgavjgaTjgYTjgaY=?= In-Reply-To: <4FFD0298.9020904@pccluster.org> Message-ID: <959341.77833.qm@web100812.mail.kks.yahoo.co.jp> 亀山様 神奈川大学 鈴木陽介です。 > > A.OUT @ host008[30/64:2/4]#7840: CALL pmEthernetSetupContext() at >ethernet.c:178 !!ERROR!! cannot set key 16. errno is 12 > PMX/Ethernet は通信のための memory を確保しているのですが, > その memory の確保に失敗しているようです. そうですか、計算ホストごとに、どれくらい空きメモリが必要でししょうか? > (dmesg で見ればどの memory の確保で失敗したかが分かりますが...) dmesgコマンドは理解できていないので、 確認方法をご教授板だけますか? なお、代わりに、cat /proc/meminfoコマンドで確認しました。 >計算ホストにどれくらいの memory がありますでしょうか? >他の process やドライバがメモリを占有していないでしょうか? ●host001?016まで MemTotalは、すべて 各計算ホスト 1025756 kBです。 MemFreelは,以下のとおりです。 フリーメモリにバラツキがあるので詳細別途確認しますが host001=>MemFree: 51808 kB host002=>MemFree: 52488 kB host003=>MemFree: 52816 kB host004=>MemFree: 53540 kB host005=>MemFree: 118000 kB* host006=>MemFree: 52916 kB host007=>MemFree: 53580 kB host008=>MemFree: 126592 kB* host009=>MemFree: 53008 kB host010=>MemFree: 51044 kB host011=>MemFree: 134000 kB* host012=>MemFree: 50280 kB host013=>MemFree: 51436 kB host014=>MemFree: 122896 kB* host015=>MemFree: 134184 kB* host016=>MemFree: 53512 kB 以 上 --- On Wed, 2012/7/11, Kameyama Toyohisa wrote: > 亀山です. > > (2012年07月11日 11:59), 鈴木 陽介 wrote: > > A.OUT @ host008[30/64:2/4]#7840:???CALL pmEthernetSetupContext() at ethernet.c:178 !!ERROR!! cannot set key 16. errno is 12 > > PMX/Ethernet は通信のための memory を確保しているのですが, > その memory の確保に失敗しているようです. > (dmesg で見ればどの memory の確保で失敗したかが分かりますが...) > > 計算ホストにどれくらいの memory がありますでしょうか? > 他の process やドライバがメモリを占有していないでしょうか? > > Kameyama Toyohisa > From yosukeys @ yahoo.co.jp Wed Jul 11 19:59:28 2012 From: yosukeys @ yahoo.co.jp (=?utf-8?B?6Yi05pyoIOmZveS7iw==?=) Date: Wed, 11 Jul 2012 19:59:28 +0900 (JST) Subject: [SCore-users-jp] =?utf-8?q?=5B54=5D_MTMI=3A_fatal_error_=280x1=29?= =?utf-8?b?OiBzY29yZV9hdHRhY2hfbmV0d29yaygpIGZhaWxlZDogMTLjgIA8MTM+IFND?= =?utf-8?b?T1JFOiBQcm9ncmFtIHNpZ25hbGVkIChBYm9ydGVkKS7jgavjgaTjgYTjgaY=?= In-Reply-To: <4FFD0298.9020904@pccluster.org> Message-ID: <727316.30996.qm@web100804.mail.kks.yahoo.co.jp> 竈山様 神奈川大学 鈴木陽介です。 よくわからなくなりました。 64 nodes (16x4) readyまで、うまくいくようになりました。 ただし、時々落ちます。やはり、メモリーなのしょうか? [60] MTMI: fatal error (0x1): score_attach_network() failed: 12 <15> SCORE: Program signaled (Aborted). 計算ホストをrebootして、 http://www.pccluster.org/score_doc/score-7.0.1/SetupSCore.txtの手順どおり 実行したところ、 # scrun -group=machinefile -node=16x4 -network=ethernet ./a.out SCore (7.0.1) Connected SCORE{1} 64 nodes (16x4) ready. Hello !! from host001.pccluster.org @ 0/64 Hello !! from host001.pccluster.org @ 2/64 Hello !! from host001.pccluster.org @ 3/64 Hello !! from host005.pccluster.org @ 16/64 Hello !! from host007.pccluster.org @ 24/64 Hello !! from host004.pccluster.org @ 12/64 Hello !! from host002.pccluster.org @ 4/64 Hello !! from host008.pccluster.org @ 28/64 Hello !! from host007.pccluster.org @ 25/64 Hello !! from host004.pccluster.org @ 13/64 Hello !! from host008.pccluster.org @ 29/64 Hello !! from host005.pccluster.org @ 17/64 Hello !! from host007.pccluster.org @ 26/64 Hello !! from host002.pccluster.org @ 5/64 Hello !! from host004.pccluster.org @ 14/64 Hello !! from host005.pccluster.org @ 18/64 Hello !! from host008.pccluster.org @ 30/64 Hello !! from host011.pccluster.org @ 40/64 Hello !! from host010.pccluster.org @ 36/64 Hello !! from host011.pccluster.org @ 41/64 Hello !! from host010.pccluster.org @ 37/64 Hello !! from host012.pccluster.org @ 45/64 Hello !! from host011.pccluster.org @ 42/64 Hello !! from host010.pccluster.org @ 38/64 Hello !! from host012.pccluster.org @ 46/64 Hello !! from host012.pccluster.org @ 47/64 Hello !! from host002.pccluster.org @ 7/64 Hello !! from host001.pccluster.org @ 1/64 Hello !! from host005.pccluster.org @ 19/64 Hello !! from host007.pccluster.org @ 27/64 Hello !! from host008.pccluster.org @ 31/64 Hello !! from host009.pccluster.org @ 32/64 Hello !! from host009.pccluster.org @ 33/64 Hello !! from host009.pccluster.org @ 35/64 Hello !! from host013.pccluster.org @ 48/64 Hello !! from host013.pccluster.org @ 49/64 Hello !! from host013.pccluster.org @ 50/64 Hello !! from host013.pccluster.org @ 51/64 Hello !! from host016.pccluster.org @ 62/64 Hello !! from host016.pccluster.org @ 60/64 Hello !! from host015.pccluster.org @ 57/64 Hello !! from host014.pccluster.org @ 54/64 Hello !! from host015.pccluster.org @ 59/64 Hello !! from host015.pccluster.org @ 58/64 Hello !! from host015.pccluster.org @ 56/64 Hello !! from host016.pccluster.org @ 61/64 Hello !! from host003.pccluster.org @ 8/64 Hello !! from host016.pccluster.org @ 63/64 Hello !! from host002.pccluster.org @ 6/64 Hello !! from host004.pccluster.org @ 15/64 Hello !! from host006.pccluster.org @ 20/64 Hello !! from host010.pccluster.org @ 39/64 Hello !! from host006.pccluster.org @ 21/64 Hello !! from host006.pccluster.org @ 22/64 Hello !! from host006.pccluster.org @ 23/64 Hello !! from host014.pccluster.org @ 52/64 Hello !! from host014.pccluster.org @ 53/64 Hello !! from host014.pccluster.org @ 55/64 Hello !! from host011.pccluster.org @ 43/64 Hello !! from host012.pccluster.org @ 44/64 Hello !! from host009.pccluster.org @ 34/64 Hello !! from host003.pccluster.org @ 9/64 Hello !! from host003.pccluster.org @ 10/64 Hello !! from host003.pccluster.org @ 11/64 さてチューニングに話ですが、 > dmesg で見ればどの memory の確保で失敗したかが分かりますが...) dmesg | grep 引数 で検索できるようですが、 引数は何を割り当てれば、dmesg のログから、問題解決に必要なログ をピックアップできるのでしょうか? 以 上 --- On Wed, 2012/7/11, Kameyama Toyohisa wrote: > 亀山です. > > (2012年07月11日 11:59), 鈴木 陽介 wrote: > > A.OUT @ host008[30/64:2/4]#7840:???CALL pmEthernetSetupContext() at ethernet.c:178 !!ERROR!! cannot set key 16. errno is 12 > > PMX/Ethernet は通信のための memory を確保しているのですが, > その memory の確保に失敗しているようです. > (dmesg で見ればどの memory の確保で失敗したかが分かりますが...) > > 計算ホストにどれくらいの memory がありますでしょうか? > 他の process やドライバがメモリを占有していないでしょうか? > > Kameyama Toyohisa > From kameyama @ riken.jp Thu Jul 12 09:45:13 2012 From: kameyama @ riken.jp (Kameyama Toyohisa) Date: Thu, 12 Jul 2012 09:45:13 +0900 Subject: [SCore-users-jp] =?utf-8?q?=5B54=5D_MTMI=3A_fatal_error_=280x1=29?= =?utf-8?b?OiBzY29yZV9hdHRhY2hfbmV0d29yaygpIGZhaWxlZDogMTLjgIA8MTM+IFND?= =?utf-8?b?T1JFOiBQcm9ncmFtIHNpZ25hbGVkIChBYm9ydGVkKS7jgavjgaTjgYTjgaY=?= In-Reply-To: <959341.77833.qm@web100812.mail.kks.yahoo.co.jp> References: <959341.77833.qm@web100812.mail.kks.yahoo.co.jp> Message-ID: <4FFE1E19.7020706@riken.jp> 亀山です. (2012年07月11日 17:25), 鈴木 陽介 wrote: >>> A.OUT @ host008[30/64:2/4]#7840: CALL pmEthernetSetupContext() at >ethernet.c:178 !!ERROR!! cannot set key 16. errno is 12 > >> PMX/Ethernet は通信のための memory を確保しているのですが, >> その memory の確保に失敗しているようです. > > そうですか、計算ホストごとに、どれくらい空きメモリが必要でししょうか? kernel で割り当てる容量ですが, scrun -nodes=XxY で機動したとき, 大体 1 + X + (384 + 16) * 2 + (1 + X * Y + (384 + 16) * 2) * Y KB になります. 16x4 ですと, 4 MB 強ぐらいでしょうか? >> (dmesg で見ればどの memory の確保で失敗したかが分かりますが...) > dmesgコマンドは理解できていないので、 > 確認方法をご教授板だけますか? dmesg | grep new_pm_ethernet_context あたりで見てください. > なお、代わりに、cat /proc/meminfoコマンドで確認しました。 > >> 計算ホストにどれくらいの memory がありますでしょうか? >> 他の process やドライバがメモリを占有していないでしょうか? > > ●host001?016まで > MemTotalは、すべて 各計算ホスト 1025756 kBです。 > > MemFreelは,以下のとおりです。 > フリーメモリにバラツキがあるので詳細別途確認しますが > 搭載memory が 1 GB で free が 50 MB から 100 MB ぐらい という感じですね. 十分そうな気はしますが... Kameyama Toyojisa From yosukeys @ yahoo.co.jp Fri Jul 13 19:26:25 2012 From: yosukeys @ yahoo.co.jp (=?utf-8?B?6Yi05pyoIOmZveS7iw==?=) Date: Fri, 13 Jul 2012 19:26:25 +0900 (JST) Subject: [SCore-users-jp] =?utf-8?q?=5B54=5D_MTMI=3A_fatal_error_=280x1=29?= =?utf-8?b?OiBzY29yZV9hdHRhY2hfbmV0d29yaygpIGZhaWxlZDogMTLjgIA8MTM+IFND?= =?utf-8?b?T1JFOiBQcm9ncmFtIHNpZ25hbGVkIChBYm9ydGVkKS7jgavjgaTjgYTjgaY=?= In-Reply-To: <4FFE1E19.7020706@riken.jp> Message-ID: <722346.1242.qm@web100802.mail.kks.yahoo.co.jp> 亀山さま 神奈川大学 鈴木陽介です。 メール有難うございます。 最初から設定を見直してみました。問題はありませんでしたが 結果、条件は不明ですが、[5] MTMI: fatal errorが発生したら 以下手順で、再操作すると、16x4も実行できます。 有難うございました。頂いた計算方法はじっくり確認してみます。 > 16x4 ですと, 4 MB 強ぐらいでしょうか? また、以下の部分も再検討してみます。 > dmesg | grep new_pm_ethernet_context なお、まだよく理解できていませんが 気になっているのが、以下のSTEPです。\マーク以下、scorehosts.dbまでの コマンド実行です。 # rsh-all -q -s -P -g machinefile /opt/score/sbin/scbdrec 2> \ > /dev/null > /opt/score/etc/scorehosts.db #cd /opt/score/7.0.1/etc/ # cat scorehosts.db 上記の操作で、scorehosts.db も確認してみました。 問題無いようようです。 ■rootユーザーでログイン(server3.pccluster.org) #cd /home/sc01 #scout -g machinefile SCOUT: session started. の応答確認する。 # mpicc hello.c scrun -g=machinefile -node=4x4 -network=ethernet ./a.out SCORE{1} 16 nodes (4x4) ready. [5] MTMI: fatal error (0x1): score_attach_network() failed: 12 <1> SCORE: Program signaled (Aborted). ■再設定実行 scorehosts.dbの定義内容を確認する。 #cd /opt/score/7.0.1/etc/ #ls scorehosts.db #cat scorehosts.db [root @ server3 sc01]# scrun -g=pcc -node=4x4 -network=ethernet ./a.out SCore (7.0.1) Connected SCORE{1} 16 nodes (4x4) ready. [5] MTMI: fatal error (0x1): score_attach_network() failed: 12 <1> SCORE: Program signaled (Aborted). [root @ server3 sc01]# scrun -g=pcc -node=4x4 -network=ethernet ./a.out エラーコード[5] MTMI: fatal error (0x1):終了! ■score関連の環境変数の確認からリトライ # printenv | grep SC SCORE_PROGFILE_TEMPLATE=/opt/score/7.0.1/bin/obj.%s/scout.exe SCOUT_CSH_OPTION=-f SCORE_ACCEPT_PLATFORM=x86_64-rhel5-linux2_6 SCORE_PREFIX_COMMAND= SCOUT_TCSH_OPTION=-f SCBDSERV=server3.pccluster.org SCOUT_NHOSTS=16 SCORE_RSH=/usr/bin/rsh SCOUTPORT=/var/tmp//SCore7.root/server3.pccluster.org//scout/scout-3da32 ■server3でマウントされているディレクトリとクライアントをリストする。 # showmount -a All mount points on server3.pccluster.org: 192.168.0.11:/home 192.168.0.11:/opt/score 192.168.0.12:/home 192.168.0.12:/opt/score 192.168.0.13:/home 192.168.0.13:/opt/score 192.168.0.13:/root 192.168.0.14:/home 192.168.0.14:/opt/score 192.168.0.15:/home 192.168.0.15:/opt/score 192.168.0.16:/home 192.168.0.16:/opt/score 192.168.0.17:/home 192.168.0.17:/opt/score 192.168.0.18:/home 192.168.0.18:/opt/score 192.168.0.19:/home 192.168.0.19:/opt/score 192.168.0.203:/home 192.168.0.203:/opt/score 192.168.0.20:/home 192.168.0.20:/opt/score 192.168.0.21:/home 192.168.0.21:/opt/score 192.168.0.22:/home 192.168.0.22:/opt/score 192.168.0.23:/home 192.168.0.23:/opt/score 192.168.0.24:/home 192.168.0.24:/opt/score 192.168.0.25:/home 192.168.0.25:/opt/score 192.168.0.26:/home 192.168.0.26:/opt/score # showmount -d Directories on server3.pccluster.org: /home /opt/score /root # showmount -e Export list for server3.pccluster.org: /home 192.168.0.0/255.255.255.0 ■計算ホスト16台の再起動の実行 #rsh host001 #reboot #exit # cd /home/sc01 # bash # export SCORE_RSH=rsh # . /etc/profile.d/score.sh # sceptic -g machinefile -v host005.pccluster.org: OK host002.pccluster.org: OK host009.pccluster.org: OK host006.pccluster.org: OK host012.pccluster.org: OK host015.pccluster.org: OK host003.pccluster.org: OK host013.pccluster.org: OK host004.pccluster.org: OK host008.pccluster.org: OK host011.pccluster.org: OK host014.pccluster.org: OK host010.pccluster.org: OK host001.pccluster.org: OK host016.pccluster.org: OK host007.pccluster.org: OK # printenv | grep SC SCOUT_CSH_OPTION=-f SCOUT_TCSH_OPTION=-f SCBDSERV=server3.pccluster.org SCORE_RSH=/usr/bin/rsh # SCORE_RSH=/usr/bin/rsh # . /etc/profile.d/score.sh # rsh-all -q -s -P -g machinefile uptime 2> /dev/null 11:02:15 up 10 min, 0 users, load average: 0.00, 0.05, 0.06 11:02:15 up 10 min, 0 users, load average: 0.00, 0.03, 0.03 11:02:15 up 10 min, 0 users, load average: 0.04, 0.05, 0.04 11:02:14 up 9 min, 0 users, load average: 0.00, 0.04, 0.05 11:02:15 up 9 min, 0 users, load average: 0.00, 0.05, 0.05 09:53:11 up 9 min, 0 users, load average: 0.00, 0.05, 0.05 10:02:00 up 9 min, 0 users, load average: 0.02, 0.08, 0.07 09:55:38 up 9 min, 0 users, load average: 0.00, 0.06, 0.05 11:02:14 up 9 min, 0 users, load average: 0.00, 0.27, 0.28 11:00:50 up 7 min, 0 users, load average: 0.00, 0.07, 0.06 10:01:54 up 7 min, 0 users, load average: 0.00, 0.07, 0.06 11:02:08 up 7 min, 0 users, load average: 0.00, 0.08, 0.06 11:01:51 up 7 min, 0 users, load average: 0.00, 0.19, 0.14 11:03:24 up 7 min, 0 users, load average: 0.00, 0.17, 0.12 11:02:15 up 7 min, 0 users, load average: 0.00, 0.09, 0.06 11:03:33 up 7 min, 0 users, load average: 0.02, 0.10, 0.07 # bash # rsh-all -q -s -P -g machinefile /opt/score/sbin/scbdrec 2> \ > /dev/null > /opt/score/etc/scorehosts.db # reboot ■serverに、rootユーザーでログイン(server3.pccluster.org) #cd /home/sc01 ■scorehosts.dbの定義内容を確認する。 #cd /opt/score/7.0.1/etc/ #ls scorehosts.db #cat scorehosts.db # cat scorehosts.db host001.pccluster.org socks=1 cores=4 speed=2100 \ network=etherhxb,ethernet,sctp \ group=_scoreall_,pcc host002.pccluster.org socks=1 cores=4 speed=2100 \ network=etherhxb,ethernet,sctp \ group=_scoreall_,pcc host003.pccluster.org socks=1 cores=4 speed=2100 \ network=etherhxb,ethernet,sctp \ group=_scoreall_,pcc host004.pccluster.org socks=1 cores=4 speed=2100 \ network=etherhxb,ethernet,sctp \ group=_scoreall_,pcc host005.pccluster.org socks=1 cores=4 speed=2100 \ network=etherhxb,ethernet,sctp \ group=_scoreall_,pcc host006.pccluster.org socks=1 cores=4 speed=2100 \ network=etherhxb,ethernet,sctp \ group=_scoreall_,pcc host007.pccluster.org socks=1 cores=4 speed=2100 \ network=etherhxb,ethernet,sctp \ group=_scoreall_,pcc host008.pccluster.org socks=1 cores=4 speed=2100 \ network=etherhxb,ethernet,sctp \ group=_scoreall_,pcc host009.pccluster.org socks=1 cores=4 speed=2100 \ network=etherhxb,ethernet,sctp \ group=_scoreall_,pcc host010.pccluster.org socks=1 cores=4 speed=2100 \ network=etherhxb,ethernet,sctp \ group=_scoreall_,pcc host011.pccluster.org socks=1 cores=4 speed=2100 \ network=etherhxb,ethernet,sctp \ group=_scoreall_,pcc host012.pccluster.org socks=1 cores=4 speed=2100 \ network=etherhxb,ethernet,sctp \ group=_scoreall_,pcc host013.pccluster.org socks=1 cores=4 speed=2100 \ network=etherhxb,ethernet,sctp \ group=_scoreall_,pcc host014.pccluster.org socks=1 cores=4 speed=2100 \ network=etherhxb,ethernet,sctp \ group=_scoreall_,pcc host015.pccluster.org socks=1 cores=4 speed=2100 \ network=etherhxb,ethernet,sctp \ group=_scoreall_,pcc host016.pccluster.org socks=1 cores=4 speed=2100 \ network=etherhxb,ethernet,sctp \ group=_scoreall_,pcc #cd /home/sc01 # scout -g machinefile SCOUT: session started. #mpicc hello.c # scrun -g=machinefile -node=16x4 -network=ethernet ./a.out SCore (7.0.1) Connected SCORE{1} 64 nodes (16x4) ready. Hello !! from host001.pccluster.org @ 0/64 Hello !! from host001.pccluster.org @ 1/64 Hello !! from host001.pccluster.org @ 2/64 Hello !! from host004.pccluster.org @ 12/64 Hello !! from host002.pccluster.org @ 4/64 Hello !! from host005.pccluster.org @ 16/64 Hello !! from host009.pccluster.org @ 32/64 Hello !! from host003.pccluster.org @ 8/64 Hello !! from host008.pccluster.org @ 28/64 Hello !! from host004.pccluster.org @ 13/64 Hello !! from host002.pccluster.org @ 5/64 Hello !! from host009.pccluster.org @ 33/64 Hello !! from host005.pccluster.org @ 18/64 Hello !! from host008.pccluster.org @ 29/64 Hello !! from host004.pccluster.org @ 14/64 Hello !! from host009.pccluster.org @ 35/64 Hello !! from host010.pccluster.org @ 36/64 Hello !! from host008.pccluster.org @ 31/64 Hello !! from host003.pccluster.org @ 9/64 Hello !! from host014.pccluster.org @ 52/64 Hello !! from host003.pccluster.org @ 10/64 Hello !! from host010.pccluster.org @ 37/64 Hello !! from host016.pccluster.org @ 60/64 Hello !! from host014.pccluster.org @ 54/64 Hello !! from host011.pccluster.org @ 40/64 Hello !! from host016.pccluster.org @ 61/64 Hello !! from host014.pccluster.org @ 55/64 Hello !! from host011.pccluster.org @ 42/64 Hello !! from host010.pccluster.org @ 39/64 Hello !! from host016.pccluster.org @ 62/64 Hello !! from host011.pccluster.org @ 43/64 Hello !! from host001.pccluster.org @ 3/64 Hello !! from host005.pccluster.org @ 17/64 Hello !! from host005.pccluster.org @ 19/64 Hello !! from host012.pccluster.org @ 44/64 Hello !! from host012.pccluster.org @ 45/64 Hello !! from host012.pccluster.org @ 46/64 Hello !! from host016.pccluster.org @ 63/64 Hello !! from host008.pccluster.org @ 30/64 Hello !! from host014.pccluster.org @ 53/64 Hello !! from host011.pccluster.org @ 41/64 Hello !! from host015.pccluster.org @ 56/64 Hello !! from host012.pccluster.org @ 47/64 Hello !! from host015.pccluster.org @ 57/64 Hello !! from host009.pccluster.org @ 34/64 Hello !! from host004.pccluster.org @ 15/64 Hello !! from host006.pccluster.org @ 20/64 Hello !! from host007.pccluster.org @ 24/64 Hello !! from host007.pccluster.org @ 25/64 Hello !! from host006.pccluster.org @ 21/64 Hello !! from host007.pccluster.org @ 26/64 Hello !! from host006.pccluster.org @ 22/64 Hello !! from host006.pccluster.org @ 23/64 Hello !! from host007.pccluster.org @ 27/64 Hello !! from host010.pccluster.org @ 38/64 Hello !! from host015.pccluster.org @ 58/64 Hello !! from host015.pccluster.org @ 59/64 Hello !! from host002.pccluster.org @ 6/64 Hello !! from host013.pccluster.org @ 48/64 Hello !! from host013.pccluster.org @ 49/64 Hello !! from host013.pccluster.org @ 50/64 Hello !! from host002.pccluster.org @ 7/64 Hello !! from host013.pccluster.org @ 51/64 Hello !! from host003.pccluster.org @ 11/64 # scrun -g=machinefile -node=16x4 -network=ethernet ./a.out | sort ■実行結果をソートしてみました。 SCore (7.0.1) Connected SCORE{1} 64 nodes (16x4) ready. Hello !! from host001.pccluster.org @ 0/64 Hello !! from host001.pccluster.org @ 1/64 Hello !! from host001.pccluster.org @ 2/64 Hello !! from host001.pccluster.org @ 3/64 Hello !! from host002.pccluster.org @ 4/64 Hello !! from host002.pccluster.org @ 5/64 Hello !! from host002.pccluster.org @ 6/64 Hello !! from host002.pccluster.org @ 7/64 Hello !! from host003.pccluster.org @ 10/64 Hello !! from host003.pccluster.org @ 11/64 Hello !! from host003.pccluster.org @ 8/64 Hello !! from host003.pccluster.org @ 9/64 Hello !! from host004.pccluster.org @ 12/64 Hello !! from host004.pccluster.org @ 13/64 Hello !! from host004.pccluster.org @ 14/64 Hello !! from host004.pccluster.org @ 15/64 Hello !! from host005.pccluster.org @ 16/64 Hello !! from host005.pccluster.org @ 17/64 Hello !! from host005.pccluster.org @ 18/64 Hello !! from host005.pccluster.org @ 19/64 Hello !! from host006.pccluster.org @ 20/64 Hello !! from host006.pccluster.org @ 21/64 Hello !! from host006.pccluster.org @ 22/64 Hello !! from host006.pccluster.org @ 23/64 Hello !! from host007.pccluster.org @ 24/64 Hello !! from host007.pccluster.org @ 25/64 Hello !! from host007.pccluster.org @ 26/64 Hello !! from host007.pccluster.org @ 27/64 Hello !! from host008.pccluster.org @ 28/64 Hello !! from host008.pccluster.org @ 29/64 Hello !! from host008.pccluster.org @ 30/64 Hello !! from host008.pccluster.org @ 31/64 Hello !! from host009.pccluster.org @ 32/64 Hello !! from host009.pccluster.org @ 33/64 Hello !! from host009.pccluster.org @ 34/64 Hello !! from host009.pccluster.org @ 35/64 Hello !! from host010.pccluster.org @ 36/64 Hello !! from host010.pccluster.org @ 37/64 Hello !! from host010.pccluster.org @ 38/64 Hello !! from host010.pccluster.org @ 39/64 Hello !! from host011.pccluster.org @ 40/64 Hello !! from host011.pccluster.org @ 41/64 Hello !! from host011.pccluster.org @ 42/64 Hello !! from host011.pccluster.org @ 43/64 Hello !! from host012.pccluster.org @ 44/64 Hello !! from host012.pccluster.org @ 45/64 Hello !! from host012.pccluster.org @ 46/64 Hello !! from host012.pccluster.org @ 47/64 Hello !! from host013.pccluster.org @ 48/64 Hello !! from host013.pccluster.org @ 49/64 Hello !! from host013.pccluster.org @ 50/64 Hello !! from host013.pccluster.org @ 51/64 Hello !! from host014.pccluster.org @ 52/64 Hello !! from host014.pccluster.org @ 53/64 Hello !! from host014.pccluster.org @ 54/64 Hello !! from host014.pccluster.org @ 55/64 Hello !! from host015.pccluster.org @ 56/64 Hello !! from host015.pccluster.org @ 57/64 Hello !! from host015.pccluster.org @ 58/64 Hello !! from host015.pccluster.org @ 59/64 Hello !! from host016.pccluster.org @ 60/64 Hello !! from host016.pccluster.org @ 61/64 Hello !! from host016.pccluster.org @ 62/64 Hello !! from host016.pccluster.org @ 63/64 --- On Thu, 2012/7/12, Kameyama Toyohisa wrote: > 亀山です. > > (2012年07月11日 17:25), 鈴木 陽介 wrote: > >>> A.OUT @ host008[30/64:2/4]#7840:???CALL pmEthernetSetupContext() at >ethernet.c:178 !!ERROR!! cannot set key 16. errno is 12 > > > >> PMX/Ethernet は通信のための memory を確保しているのですが, > >> その memory の確保に失敗しているようです. > > > > そうですか、計算ホストごとに、どれくらい空きメモリが必要でししょうか? > > kernel で割り当てる容量ですが, > ? ???scrun -nodes=XxY > で機動したとき, 大体 > ? ? 1? + X + (384 + 16) * 2 + (1 + X * Y + (384 + 16) * 2) * Y > KB になります. > > 16x4 ですと, 4 MB 強ぐらいでしょうか? > > >> (dmesg で見ればどの memory の確保で失敗したかが分かりますが...) > > dmesgコマンドは理解できていないので、 > > 確認方法をご教授板だけますか? > > ? ???dmesg | grep new_pm_ethernet_context > あたりで見てください. > > > なお、代わりに、cat /proc/meminfoコマンドで確認しました。 > > > >> 計算ホストにどれくらいの memory がありますでしょうか? > >> 他の process やドライバがメモリを占有していないでしょうか? > > > > ●host001?016まで > > MemTotalは、すべて 各計算ホスト 1025756 kBです。 > > > > MemFreelは,以下のとおりです。 > > フリーメモリにバラツキがあるので詳細別途確認しますが > > > > 搭載memory が 1 GB で free が 50 MB から 100 MB ぐらい > という感じですね. > 十分そうな気はしますが... > > Kameyama Toyojisa >