From ishikawa @ is.s.u-tokyo.ac.jp Thu Sep 7 14:36:24 2006 From: ishikawa @ is.s.u-tokyo.ac.jp (Yutaka Ishikawa) Date: Thu, 07 Sep 2006 14:36:24 +0900 (JST) Subject: [SCore-users-jp] =?iso-2022-jp?b?UEMbJEIlLyVpJTklPyVvITwbKEI=?= =?iso-2022-jp?b?GyRCJS8lNyVnJUMlVzMrOkUkTiQ0MEZGYhsoQg==?= Message-ID: <20060907.143624.336472176.ishikawa@is.s.u-tokyo.ac.jp> SCoreユーザの皆様、 PCクラスタワークショップをご案内させていただきます。 SCoreに関する話題としては、筑波大学のPACS-CSがあります。本システムは、 SCoreで運用しているクラスタの中で一番規模の大きいマシンで、2560ノード 構成です。 また、本ワークショップでは、SCoreに限らずPCクラスタ全般が話題となって おります。 事前登録制になっておりますので、お早めに御参加登録のほどお願い致します。 石川 ---------------------------------------------------------------------- 第 1 回 PC クラスタワークショップ ここまできたクラスタシステム 2006年9月22日(金)13:00 - 17:00 NEC本社ビル地下1階多目的ホール 主催:PCクラスタコンソーシアム 参加費:無料 定員:100名 http://www.pccluster.org/event/workshop/pcc2006 事前登録 (9 月 15 日 18:00 まで) プログラム 13:10 - 13:20 会長挨拶 石川 裕 (東京大学) 13:20 - 14:20 科学技術計算用超並列クラスタPACS-CSの実装・評価・運用 朴 泰祐 (筑波大学) 14:20 - 14:50 大規模構造解析システム ADVC の運用事例 秋葉 博 (アライドエンジニアリング 社長) 14:50 - 15:00 休憩 15:00 - 15:30 PCクラスタでのLS−DYNAの実行環境の構築 大下文則 (株式会社日本総研ソリューションズ エンジニアリング事業本部マーケティング企画グループ) 15:30 -16:00  構造流体解析プログラムRADIOSSの並列計算性能に関して 田井 秀人 (メカログ ジャパン株式会社 代表取締役) 16:00 - 16:20 休憩 16:20 - 17:20 パネル「PCクラスタが抱える現状」 司会: 西 克也 (株式会社ベストシステムズ) パネリスト: 講演者の皆さん From vqm_mp @ yahoo.co.jp Fri Sep 8 11:08:02 2006 From: vqm_mp @ yahoo.co.jp (vqm_mp) Date: Fri, 8 Sep 2006 11:08:02 +0900 (JST) Subject: [SCore-users-jp] kernel =?iso-2022-jp?b?GyRCSVQ2cTlnISkbKEI=?= Message-ID: <20060908020802.72822.qmail@web2204.mail.yahoo.co.jp> メーリングリストの皆様 明治大学の鈴木と申します.お世話になります. マザーボード:ASUS A8N-SLI,CPU:AMD Athlon 64,100Mbps Ethernet の環境で動かそうとしています. まず, Fedora Core 3 + (kernel 2.6.11, or 2.6.11.9 or 2.6.11.12) + SCore 5.8.3 を使ってソースからコンパイルし,インストールを試みました . すると,どのkernelを用いてもkernel panicを起こしてしまっ た ので, Fedora Core 4 + kernel 2.6.11.9 + SCore 5.8.3 で再度試みました.Fedora Core 4 付属のgccではkernelをコ ンパイル できなかったため,Fedora Core 3 上でコンパイルしたものを 使って kernelを再構築し,SCoreをインストールしました. PMテストまでは正常に動きました.続いて,MPIプログラムを コンパイル, 実行した際, a) 1ノードをscout環境においた場合は正常に実行できます. b) 複数ノードをscout環境においた場合,MPIプログラム実行 時に いずれか1ノードまたは複数ノードがフリーズします. 上記b)の現象の原因と回避策をご教示ください. -------------------------------------- For All Sports Lovers! http://pr.mail.yahoo.co.jp/yells/ From kameyama @ pccluster.org Fri Sep 8 12:14:19 2006 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Fri, 08 Sep 2006 12:14:19 +0900 Subject: [SCore-users-jp] kernel =?ISO-2022-JP?B?GyRCSVQ2cTlnISkbKEI=?= In-Reply-To: <20060908020802.72822.qmail@web2204.mail.yahoo.co.jp> References: <20060908020802.72822.qmail@web2204.mail.yahoo.co.jp> Message-ID: <4500E00B.8050606@pccluster.org> 亀山です. とりあえず, 現状把握を... vqm_mp wrote: > マザーボード:ASUS A8N-SLI,CPU:AMD Athlon 64,100Mbps > Ethernet > の環境で動かそうとしています. NIC はなんでしょうか? (PM のネットワークは PM/Ethernet ですよね?) 動かそうとしているのは x86-64 のほうでしょうか? > まず, > > Fedora Core 3 + (kernel 2.6.11, or 2.6.11.9 or > 2.6.11.12) > + SCore 5.8.3 > > を使ってソースからコンパイルし,インストールを試みました > . > すると,どのkernelを用いてもkernel panicを起こしてしまっ > た > ので, この kernel panic は SCore とは関係のないところだったのでしょうか? > Fedora Core 4 + kernel 2.6.11.9 + SCore 5.8.3 > > で再度試みました.Fedora Core 4 付属のgccではkernelをコ > ンパイル > できなかったため,Fedora Core 3 上でコンパイルしたものを > 使って > kernelを再構築し,SCoreをインストールしました. kernel が同じで distribution を変更したら, kernel panic が起こらなくなる, という現象が何故おこるのか 理解できないのですが... Kameyama Toyohisa From vqm_mp @ yahoo.co.jp Fri Sep 8 19:12:50 2006 From: vqm_mp @ yahoo.co.jp (vqm_mp) Date: Fri, 8 Sep 2006 19:12:50 +0900 (JST) Subject: [SCore-users-jp] kernel =?ISO-2022-JP?B?GyRCSVQ2cTlnISkbKEI=?= In-Reply-To: <4500E00B.8050606@pccluster.org> Message-ID: <20060908101250.69164.qmail@web2205.mail.yahoo.co.jp> 明大鈴木です. 早速のレスをありがとうございました. > > NIC はなんでしょうか? > (PM のネットワークは PM/Ethernet ですよね?) On boardのLANを使っています.PM/Ethernetです. > 動かそうとしているのは x86-64 のほうでしょうか? x86-64です. > > > まず, > > > > Fedora Core 3 + (kernel 2.6.11, or 2.6.11.9 > > or 2.6.11.12)+ SCore 5.8.3 > > > > > > を使ってソースからコンパイルし,インストールを > > 試みました.すると,どのkernelを用いてもkernel > > panicを起こしてしまったので, > > この kernel panic は SCoreとは関係のないところだった > のでしょうか? Scoreとは関係ありません.コンピュータの起動ができない, または起動できてもdmesgコマンドを打つとsegfaultエラーが 断続的に続いています.kernelを入れ替える前から起こってい る 症状です. > > > Fedora Core 4 + kernel 2.6.11.9 + SCore 5.8.3 > > > > で再度試みました.Fedora Core 4付属のgccではkernelを > > コンパイルできなかったため,Fedora Core 3 上でコン > > パイルしたものを使ってkernelを再構築し,SCoreをイン > > ストールしました. > > kernel が同じで distribution を変更したら, > kernel panic が起こらなくなる, > という現象が何故おこるのか > 理解できないのですが... > distribution を変更したら,kernel panic が起こらなく なりました.distributionが原因でkernel panicが起こって いるようです. 上記kernel panicとフリーズの原因は違うものなのでしょうか ? 「MPIプログラムを動かすとフリーズする」ということには, どのような原因が考えられますか? よろしくお願いします. > 亀山です. > とりあえず, 現状把握を... > > vqm_mp wrote: > > マザーボード:ASUS A8N-SLI,CPU:AMD Athlon > 64,100Mbps > > Ethernet > > の環境で動かそうとしています. > > NIC はなんでしょうか? > (PM のネットワークは PM/Ethernet ですよね?) > 動かそうとしているのは x86-64 のほうでしょうか? > > > まず, > > > > Fedora Core 3 + (kernel 2.6.11, or 2.6.11.9 or > > 2.6.11.12) > > + SCore 5.8.3 > > > > > を使ってソースからコンパイルし,インストールを試みまし た > > . > > すると,どのkernelを用いてもkernel > panicを起こしてしまっ > > た > > ので, > > この kernel panic は SCore > とは関係のないところだったのでしょうか? > > > Fedora Core 4 + kernel 2.6.11.9 + SCore 5.8.3 > > > > で再度試みました.Fedora Core 4 > 付属のgccではkernelをコ > > ンパイル > > できなかったため,Fedora Core 3 > 上でコンパイルしたものを > > 使って > > kernelを再構築し,SCoreをインストールしました. > > kernel が同じで distribution を変更したら, > kernel panic が起こらなくなる, > という現象が何故おこるのか > 理解できないのですが... > > Kameyama Toyohisa > > _______________________________________________ > SCore-users-jp mailing list > SCore-users-jp @ pccluster.org > http://www.pccluster.org/mailman/listinfo/score-users-jp > -------------------------------------- For All Sports Lovers! http://pr.mail.yahoo.co.jp/yells/ From kameyama @ pccluster.org Mon Sep 11 14:28:53 2006 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Mon, 11 Sep 2006 14:28:53 +0900 Subject: [SCore-users-jp] kernel =?ISO-2022-JP?B?GyRCSVQ2cTlnISkbKEI=?= In-Reply-To: <20060908101250.69164.qmail@web2205.mail.yahoo.co.jp> References: <20060908101250.69164.qmail@web2205.mail.yahoo.co.jp> Message-ID: <4504F415.4050906@pccluster.org> 亀山です. vqm_mp wrote: >> NIC はなんでしょうか? >> (PM のネットワークは PM/Ethernet ですよね?) > On boardのLANを使っています.PM/Ethernetです. http://download.nvidia.com/XFree86/nforce/1.0-0306/KnownProblems.html に以下の記述がありますが, 該当しないでしょうか? Network and other devices randomly stop working when ACPI is enabled This problem may be caused by an incorrect ACPI table entry that causes the timer interrupt to be incorrectly configured. If the kernel console boot trace (viewable using dmesg) contains messages such as these: ..MP-BIOS bug: 8254 timer not connected to IOAPIC ...trying to set up timer (IRQ0) through the 8259A . failed. ...trying to set up timer as Virtual Wire IRQ... failed. ...trying to set up timer as ExtINT IRQ... works. then the incorrect ACPI table entry is present. On 2.6 kernels, this can be worked around by specifying the 'acpi_skip_timer_override' boot line option. An alternative workaround is to disable ACPI in the BIOS or by using the 'acpi=off' boot line option. >>> で再度試みました.Fedora Core 4付属のgccではkernelを >>> コンパイルできなかったため,Fedora Core 3 上でコン >>> パイルしたものを使ってkernelを再構築し,SCoreをイン >>> ストールしました. >> kernel が同じで distribution を変更したら, >> kernel panic が起こらなくなる, >> という現象が何故おこるのか >> 理解できないのですが... >> > distribution を変更したら,kernel panic が起こらなく > なりました.distributionが原因でkernel panicが起こって > いるようです. 普通, kernel はその上で動くプログラムがどうであろうと panic にならない/なってはいけないのですが... X11 とかはその例外ですが... > 上記kernel panicとフリーズの原因は違うものなのでしょうか > ? kernel panic の原因が分からないので何も言えません. > 「MPIプログラムを動かすとフリーズする」ということには, > どのような原因が考えられますか? scstest まで動いていたのでしたら, context switch 関連の bug とかも考えられないことは無いですけど... Kameyama Toyohisa From kameyama @ pccluster.org Mon Sep 11 21:10:21 2006 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Mon, 11 Sep 2006 21:10:21 +0900 Subject: [SCore-users-jp] kernel =?ISO-2022-JP?B?GyRCSVQ2cTlnISkbKEI=?= In-Reply-To: <20060911115043.87165.qmail@web2202.mail.yahoo.co.jp> References: <20060911115043.87165.qmail@web2202.mail.yahoo.co.jp> Message-ID: <4505522D.9000401@pccluster.org> 亀山です. vqm_mp wrote: > お世話になります。明治大学の鈴木です。 > > http://download.nvidia.com/XFree86/nforce/1.0-0306/KnownProblems.html >> に以下の記述がありますが, 該当しないでしょうか? >> >> Network and other devices randomly stop >> working when ACPI is enabled > : > : > > 該当しません。 > >> scstest まで動いていたのでしたら, context switch >> 関連の >> bug とかも考えられないことは無いですけど... > > scstestも正常に動いております。 > > さて、本日、i386の Fefora Core 3 で再度挑戦してみました > 。 > すると、下記いずれの場合も同じscout環境のもとで、同じMPI > プログラムをコンパイルし、scrun ./a.outコマンドを行なっ > て > いるのですが、 > > 1)正常に動く。 > > 2)以下のメッセージで止まる。 > [root @ server test]# scrun -nodes=4 ./a.out > SCore-D 5.8.3 connected. > <2> SCORE: Program signaled (SIGSEGV). > > 3)何も応答なし。 > > 4)いずれかのノードがフリーズする。 > > の4パターンになりました。X86_64のときは4)だけでしたが、 > i386にすると1)のように成功する場合もあります。 > > ・同じことをやっているのに、なぜ、動作が変わるので > しょうか? 複数のホストでプログラムが動いているので, タイミングによって動作が変わることはよくあります. > ・2)のメッセージは、何を現わしていますか? 3 ばんめのプロセス (<2> の部分, この数字は 0 origin なので...) の SCore が SIGSEGV をおこしたことを現しています. scrun -nodes=4,scoredtrace=100 ./a.out などとやるとどのあたりで落ちているかわかるかもしれません. Kameyama Toyohisa From vqm_mp @ yahoo.co.jp Tue Sep 12 11:12:16 2006 From: vqm_mp @ yahoo.co.jp (vqm_mp) Date: Tue, 12 Sep 2006 11:12:16 +0900 (JST) Subject: [SCore-users-jp] kernel =?ISO-2022-JP?B?GyRCSVQ2cTlnISkbKEI=?= In-Reply-To: <4505522D.9000401@pccluster.org> Message-ID: <20060912021216.55452.qmail@web2208.mail.yahoo.co.jp> お世話になります。明治大学の鈴木です。 > > 3 ばんめのプロセス (<2> の部分, この数字は 0 origin > なので...) > の SCore が SIGSEGV をおこしたことを現しています. > scrun -nodes=4,scoredtrace=100 ./a.out > などとやるとどのあたりで落ちているかわかるかもしれませ ん. 早速, scrun -nodes=4,scoredtrace=100 ./a.out をおこなってみました. プログラムは example/mttl/hello.cc です.すると,何も反応がない場合と次の3通りの応答がある 場合がありました. *******(1パターン目)******** <0> SCore-D:DEBUG fd_max(NULL) = 199 <3> SCore-D:DEBUG fd_max(NULL) = 199 <1> SCore-D:DEBUG fd_max(NULL) = 199 <2> SCore-D:DEBUG fd_max(NULL) = 199 <3> SCore-D:TRACE(../fep.cc:458) <3> SCore-D:TRACE(../fep.cc:468) <3> SCore-D:DEBUG control=(null) SCore-D 5.8.3 connected. <3> SCore-D:DEBUG >> user_control <0> SCore-D:DEBUG >> createSubjob(JID=1,subjobID=0) <3> SCore-D:DEBUG isnot_ready_to_run(jid=1,wchan=0,gchan=0,temp=0,death=0) <3> SCore-D:DEBUG reset_wchan(jid=1,wchan=0,gchan=0,temp=0,death=0) <3> SCore-D:DEBUG run_fep(jid=1,status=1,kill=0) <0> SCore-D:DEBUG << createSubjob(JID=1,subjobID=0) <0> SCORE-D:DEBUG set_process_group_id(14164,14164) <0> SCore-D:DEBUG set_process_group_id(14164,14164) <1> SCORE-D:DEBUG set_process_group_id(14156,14156) <1> SCore-D:DEBUG set_process_group_id(14156,14156) <3> SCore-D:DEBUG fep_stopped(key=414844649,jid=1,uid=0) <3> SCore-D:DEBUG isnot_ready_to_run(jid=1,wchan=0,gchan=0,temp=0,death=0) <3> SCore-D:DEBUG reset_wchan(jid=1,wchan=0,gchan=0,temp=0,death=0) <3> SCore-D:DEBUG run_fep(jid=1,status=3,kill=0) <2> SCORE-D:DEBUG set_process_group_id(13212,13212) <2> SCore-D:DEBUG set_process_group_id(13212,13212) <3> SCORE-D:DEBUG set_process_group_id(13149,13149) <3> SCore-D:DEBUG set_process_group_id(13149,13149) <3> SCore-D:DEBUG TSS timer STARTS (jid=1) <3> SCore-D:DEBUG wakeup_job(jid=1,ident=1) <0> SCore-D:TRACE(../idle.cc:628) fd_syscall is closed *******(2パターン目)******** <2> SCore-D:WARNING Unable to open PM ethernet/ethernet (error=2). <2> SCore-D:WARNING argv[0] -config <2> SCore-D:WARNING argv[1] /var/scored/scoreboard/server.Eo0:1Mg7c <2> SCore-D:ERROR No PM device opened. <2> SCore-D:DEBUG >> exit_handler() <2> SCore-D:DEBUG << exit_handler() *******(3パターン目)******** <0> SCore-D:DEBUG fd_max(NULL) = 199 <3> SCore-D:DEBUG fd_max(NULL) = 199 <1> SCore-D:DEBUG fd_max(NULL) = 199 <2> SCore-D:DEBUG fd_max(NULL) = 199 <3> SCore-D:TRACE(../fep.cc:458) <3> SCore-D:TRACE(../fep.cc:468) <3> SCore-D:DEBUG control=(null) SCore-D 5.8.3 connected. <3> SCore-D:DEBUG >> user_control <0> SCore-D:DEBUG >> createSubjob(JID=1,subjobID=0) <3> SCore-D:DEBUG isnot_ready_to_run(jid=1,wchan=0,gchan=0,temp=0,death=0) <3> SCore-D:DEBUG reset_wchan(jid=1,wchan=0,gchan=0,temp=0,death=0) <3> SCore-D:DEBUG run_fep(jid=1,status=1,kill=0) <0> SCore-D:DEBUG << createSubjob(JID=1,subjobID=0) <3> SCore-D:DEBUG fep_stopped(key=1228188647,jid=1,uid=0) <0> SCORE-D:DEBUG set_process_group_id(14343,14343) <0> SCore-D:DEBUG set_process_group_id(14343,14343) <3> SCore-D:DEBUG isnot_ready_to_run(jid=1,wchan=0,gchan=0,temp=0,death=0) <1> SCORE-D:DEBUG set_process_group_id(14338,14338) <1> SCore-D:DEBUG set_process_group_id(14338,14338) <3> SCore-D:DEBUG reset_wchan(jid=1,wchan=0,gchan=0,temp=0,death=0) <3> SCore-D:DEBUG run_fep(jid=1,status=3,kill=0) <3> SCORE-D:DEBUG set_process_group_id(13302,13302) <2> SCORE-D:DEBUG set_process_group_id(13184,13184) <2> SCore-D:DEBUG set_process_group_id(13184,13184) <3> SCore-D:DEBUG set_process_group_id(13302,13302) <3> SCore-D:DEBUG TSS timer STARTS (jid=1) <3> SCore-D:DEBUG wakeup_job(jid=1,ident=1) <2> SCore-D:TRACE(../idle.cc:628) fd_syscall is closed <3> SCore-D:TRACE(../subjob.cc:337) fep_signaled() <3> SCore-D:DEBUG stop_fep(jid=1,st=2) <3> SCore-D:DEBUG TSS timer EXPIRES (jid=1) <3> SCore-D:DEBUG fep_stopped(key=1228188647,jid=1,uid=0) <0> SCore-D:TRACE(../idle.cc:628) fd_syscall is closed <1> SCore-D:TRACE(../idle.cc:628) fd_syscall is closed <3> SCore-D:DEBUG reset_wchan(jid=1,wchan=0,gchan=1,temp=0,death=ffffff) <3> SCore-D:DEBUG run_fep(jid=1,status=3,kill=1) <3> SCore-D:TRACE(../idle.cc:628) fd_syscall is closed <3> SCore-D:DEBUG all_subjob_exited(jid=1,jobstep=1/1,recover=0) <3> SCore-D:DEBUG fep_stopped(key=1228188647,jid=1,uid=0) <3> SCore-D:DEBUG <<<<<<<<<<< TERMINATED (jid=1) >>>>>>>>>>> <3> SCore-D:DEBUG remove_job_file(/var/scored/singleuser/0/job-descs/jid-1) <3> SCore-D:DEBUG >> free_fep(jid=1,node=2,exit=0xb) <3> SCore-D:TRACE(../fep.cc:838) free_fep() <3> SCore-D:TRACE(../fep.cc:841) free_fep() <0> SCore-D:TRACE(../fepio.cc:443) >> flush_fepio() <0> SCore-D:DEBUG flush_fepio(status=3) <0> SCore-D:TRACE(../fepio.cc:466) << flush_fepio() <3> SCore-D:TRACE(../fepio.cc:443) >> flush_fepio() <0> SCore-D:TRACE(../subjob.cc:221) >> free_subjob() <0> SCore-D:DEBUG free_pegroup(flag_dontclear=0) <0> SCore-D:DEBUG killpg(14343,9)=3 <1> SCore-D:DEBUG free_pegroup(flag_dontclear=0) <0> SCore-D:DEBUG >> free_pe(scio=0) <2> SCore-D:DEBUG free_pegroup(flag_dontclear=0) <1> SCore-D:DEBUG killpg(14338,9)=3 <0> SCore-D:TRACE(../pe.cc:487) >> flush_pe() <2> SCore-D:DEBUG killpg(13184,9)=3 <2> SCore-D:DEBUG >> free_pe(scio=0) <1> SCore-D:DEBUG >> free_pe(scio=0) <1> SCore-D:TRACE(../pe.cc:487) >> flush_pe() <0> SCore-D:TRACE(../pe.cc:512) flush_pe() <0> SCore-D:TRACE(../pe.cc:516) << flush_pe() <2> SCore-D:TRACE(../pe.cc:487) >> flush_pe() <2> SCore-D:TRACE(../pe.cc:512) flush_pe() <1> SCore-D:TRACE(../pe.cc:512) flush_pe() <0> SCore-D:TRACE(../pe.cc:531) free_pe <0> SCore-D:TRACE(../pe.cc:535) free_pe <0> SCore-D:DEBUG >> close_attach_fds(netset_num=1) <0> SCore-D:DEBUG close_attach_fds(dev=1,np=1) <2> SCore-D:TRACE(../pe.cc:516) << flush_pe() <0> SCore-D:DEBUG close_attach_fds(dev=0,np=0,cntxt=0x81e5ed8) <0> SCore-D:DEBUG << close_attach_fds() <2> SCore-D:TRACE(../pe.cc:531) free_pe <0> SCore-D:TRACE(../pe.cc:539) free_pe <0> SCore-D:TRACE(../pe.cc:543) free_pe <0> SCore-D:TRACE(../pe.cc:547) free_pe <2> SCore-D:TRACE(../pe.cc:535) free_pe <2> SCore-D:DEBUG >> close_attach_fds(netset_num=1) <2> SCore-D:DEBUG close_attach_fds(dev=1,np=1) <0> SCore-D:TRACE(../pe.cc:551) free_pe <0> SCore-D:TRACE(../pe.cc:574) free_pe <2> SCore-D:DEBUG close_attach_fds(dev=0,np=0,cntxt=0x81e5f38) <3> SCore-D:DEBUG flush_fepio(status=3) <3> SCore-D:TRACE(../fepio.cc:466) << flush_fepio() <3> SCore-D:TRACE(../fep.cc:843) free_fep() <3> SCore-D:TRACE(../fep.cc:845) free_fep() <3> SCore-D:TRACE(../fepio.cc:443) >> flush_fepio() <3> SCore-D:DEBUG flush_fepio(status=3) <3> SCore-D:TRACE(../fepio.cc:466) << flush_fepio() <3> SCore-D:TRACE(../fep.cc:847) free_fep() <3> SCore-D:TRACE(../fep.cc:849) free_fep() <3> SCore-D:TRACE(../fep.cc:851) free_fep() <0> SCore-D:TRACE(../pe.cc:578) << free_pe <2> SCore-D:DEBUG << close_attach_fds() <2> SCore-D:TRACE(../pe.cc:539) free_pe <2> SCore-D:TRACE(../pe.cc:543) free_pe <2> SCore-D:TRACE(../pe.cc:547) free_pe <2> SCore-D:TRACE(../pe.cc:551) free_pe <2> SCore-D:TRACE(../pe.cc:574) free_pe <2> SCore-D:TRACE(../pe.cc:578) << free_pe <3> SCore-D:DEBUG free_pegroup(flag_dontclear=0) <3> SCore-D:DEBUG killpg(13302,9)=3 <3> SCore-D:DEBUG >> free_pe(scio=0) <3> SCore-D:TRACE(../pe.cc:487) >> flush_pe() <3> SCore-D:TRACE(../pe.cc:512) flush_pe() <1> SCore-D:TRACE(../pe.cc:516) << flush_pe() <1> SCore-D:TRACE(../pe.cc:531) free_pe <1> SCore-D:TRACE(../pe.cc:535) free_pe <1> SCore-D:DEBUG >> close_attach_fds(netset_num=1) <1> SCore-D:DEBUG close_attach_fds(dev=1,np=1) <1> SCore-D:DEBUG close_attach_fds(dev=0,np=0,cntxt=0x81e5e80) <1> SCore-D:DEBUG << close_attach_fds() <1> SCore-D:TRACE(../pe.cc:539) free_pe <1> SCore-D:TRACE(../pe.cc:543) free_pe <1> SCore-D:TRACE(../pe.cc:547) free_pe <1> SCore-D:TRACE(../pe.cc:551) free_pe <1> SCore-D:TRACE(../pe.cc:574) free_pe <1> SCore-D:TRACE(../pe.cc:578) << free_pe <3> SCore-D:TRACE(../pe.cc:516) << flush_pe() <3> SCore-D:TRACE(../pe.cc:531) free_pe <3> SCore-D:TRACE(../pe.cc:535) free_pe <3> SCore-D:DEBUG >> close_attach_fds(netset_num=1) <3> SCore-D:DEBUG close_attach_fds(dev=1,np=1) <3> SCore-D:DEBUG close_attach_fds(dev=0,np=0,cntxt=0x81e5f38) <3> SCore-D:DEBUG << close_attach_fds() <3> SCore-D:TRACE(../pe.cc:539) free_pe <3> SCore-D:TRACE(../pe.cc:543) free_pe <3> SCore-D:TRACE(../pe.cc:547) free_pe <3> SCore-D:TRACE(../pe.cc:551) free_pe <3> SCore-D:TRACE(../pe.cc:574) free_pe <3> SCore-D:TRACE(../pe.cc:578) << free_pe <0> SCore-D:TRACE(../subjob.cc:225) free_subjob() <0> SCore-D:TRACE(../subjob.cc:232) free_subjob() <0> SCore-D:DEBUG fepio_close() <0> SCore-D:TRACE(../subjob.cc:236) free_subjob() <0> SCore-D:TRACE(../subjob.cc:241) << free_subjob() <0> SCore-D:DEBUG >> finalize_host(0) <0> SCore-D:TRACE(../scoredir.cc:389) cleanup_scored_dir() <0> SCore-D:DEBUG << finalize_host() <1> SCore-D:DEBUG >> finalize_host(0) <1> SCore-D:TRACE(../scoredir.cc:389) cleanup_scored_dir() <1> SCore-D:DEBUG << finalize_host() <2> SCore-D:DEBUG >> finalize_host(0) <3> SCore-D:TRACE(../fep.cc:853) free_fep() <2> SCore-D:TRACE(../scoredir.cc:389) cleanup_scored_dir() <2> SCore-D:DEBUG << finalize_host() <3> SCore-D:TRACE(../fep.cc:856) free_fep() <3> SCore-D:DEBUG fepio_close() <3> SCore-D:DEBUG fds_select[199] <3> SCore-D:TRACE(../fep.cc:862) free_fep(jobc) <3> SCore-D:TRACE(../fep.cc:866) << free_fep <3> SCore-D:DEBUG >> finalize_host(0) <3> SCore-D:TRACE(../scoredir.cc:389) cleanup_scored_dir() <3> SCore-D:DEBUG << finalize_host() また, scrun -nodes=4,scoredtrace ./a.out とすると, <1> SCore-D:TRACE(../tss.cc:834) TSS scheduler ... idling <1> SCore-D:TRACE(../tss.cc:834) TSS scheduler ... idling <1> SCore-D:TRACE(../tss.cc:834) TSS scheduler ... idling <1> SCore-D:TRACE(../tss.cc:834) TSS scheduler ... idling <1> SCore-D:TRACE(../tss.cc:834) TSS scheduler ... idling という出力が続けて出てくることがあります. 診断よろしくお願いします. -------------------------------------- [10th Anniversary] special auction campaign now! http://pr.mail.yahoo.co.jp/auction/ From kameyama @ pccluster.org Tue Sep 12 13:34:42 2006 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Tue, 12 Sep 2006 13:34:42 +0900 Subject: [SCore-users-jp] kernel =?ISO-2022-JP?B?GyRCSVQ2cTlnISkbKEI=?= In-Reply-To: <20060912021216.55452.qmail@web2208.mail.yahoo.co.jp> References: <20060912021216.55452.qmail@web2208.mail.yahoo.co.jp> Message-ID: <450638E2.3060400@pccluster.org> 亀山です. vqm_mp wrote: > scrun -nodes=4,scoredtrace=100 ./a.out > をおこなってみました. プログラムは example/mttl/hello.cc > です.すると,何も反応がない場合と次の3通りの応答がある > 場合がありました. > > *******(1パターン目)******** (中略) > <3> SCore-D:DEBUG wakeup_job(jid=1,ident=1) > <0> SCore-D:TRACE(../idle.cc:628) fd_syscall is closed ユーザプロセスと SCore-D との間にある pipe の一つを読もうとしたら close されていたことを示しています. > *******(2パターン目)******** > <2> SCore-D:WARNING Unable to open PM ethernet/ethernet > (error=2). > <2> SCore-D:WARNING argv[0] -config > <2> SCore-D:WARNING argv[1] > /var/scored/scoreboard/server.Eo0:1Mg7c > <2> SCore-D:ERROR No PM device opened. > <2> SCore-D:DEBUG >> exit_handler() > <2> SCore-D:DEBUG << exit_handler() process 2 で PM/Ethernet が open できませんでした. 環境変数 PM_DEBUG を 1 にすれば原因がわかるとは思いますが, このような場合, 複数のプロセスで PM を使用しようとしていることが 多いです. (pmtest を起動したまま scrun しようとしているとか,) もしかして, scrun を同時にいくつか起動しようとしていませんでしょうか? (msgbserv を設定し, 起動していれば複数立ち上がらないようになっている はずなのですが...) 同時に起動するためには SCore-D の multi user mode を使用する 必要があります. Kameyama Toyohisa From vqm_mp @ yahoo.co.jp Tue Sep 12 16:41:43 2006 From: vqm_mp @ yahoo.co.jp (vqm_mp) Date: Tue, 12 Sep 2006 16:41:43 +0900 (JST) Subject: [SCore-users-jp] kernel =?ISO-2022-JP?B?GyRCSVQ2cTlnISkbKEI=?= In-Reply-To: <450638E2.3060400@pccluster.org> Message-ID: <20060912074143.37918.qmail@web2201.mail.yahoo.co.jp> お世話様です.明大の鈴木です. 2重起動,実行にならないように注意しながら,PM_DEBUGを 1にして, scrun -nodes=4,scoredtrace=100 ./a.out を行いました.何も反応がない(プロンプトが返ってこず, scrun.exeが動いたままの状態になっている)か,あるいは 以下の出力になります. 通常の実行 scrun -nodes=4 ./a.out においては,正常に動くか,何も反応がないか,あるいは, [root @ server test]# scrun -nodes=4 ./a.out SCore-D 5.8.3 connected. <0> SCORE: Program signaled (SIGSEGV). となります. たびたび申し訳ございませんが,もう一度,診断をお願い します. <1> SCore-D:DEBUG fd_max(NULL) = 199 <0> SCore-D:DEBUG fd_max(NULL) = 199 <3> SCore-D:DEBUG fd_max(NULL) = 199 <2> SCore-D:DEBUG fd_max(NULL) = 199 <3> SCore-D:TRACE(../fep.cc:458) <3> SCore-D:TRACE(../fep.cc:468) <3> SCore-D:DEBUG control=(null) SCore-D 5.8.3 connected. <3> SCore-D:DEBUG >> user_control <0> SCore-D:DEBUG >> createSubjob(JID=1,subjobID=0) <3> SCore-D:DEBUG isnot_ready_to_run(jid=1,wchan=0,gchan=0,temp=0,death=0) <3> SCore-D:DEBUG reset_wchan(jid=1,wchan=0,gchan=0,temp=0,death=0) <3> SCore-D:DEBUG run_fep(jid=1,status=1,kill=0) <0> SCore-D:DEBUG << createSubjob(JID=1,subjobID=0) <0> SCORE-D:DEBUG set_process_group_id(13381,13381) <0> SCore-D:DEBUG set_process_group_id(13381,13381) <3> SCore-D:DEBUG fep_stopped(key=406038567,jid=1,uid=0) <1> SCORE-D:DEBUG set_process_group_id(13373,13373) <1> SCore-D:DEBUG set_process_group_id(13373,13373) <3> SCore-D:DEBUG isnot_ready_to_run(jid=1,wchan=0,gchan=0,temp=0,death=0) <3> SCore-D:DEBUG reset_wchan(jid=1,wchan=0,gchan=0,temp=0,death=0) <3> SCore-D:DEBUG run_fep(jid=1,status=3,kill=0) <2> SCORE-D:DEBUG set_process_group_id(13354,13354) <2> SCore-D:DEBUG set_process_group_id(13354,13354) <3> SCORE-D:DEBUG set_process_group_id(13391,13391) <3> SCore-D:DEBUG set_process_group_id(13391,13391) <3> SCore-D:DEBUG TSS timer STARTS (jid=1) <3> SCore-D:DEBUG wakeup_job(jid=1,ident=1) <3> SCore-D:DEBUG TSS timer EXPIRES (jid=1) <3> SCore-D:DEBUG fep_stopped(key=406038567,jid=1,uid=0) <3> SCore-D:DEBUG isnot_ready_to_run(jid=1,wchan=0,gchan=1,temp=0,death=0) <3> SCore-D:DEBUG reset_wchan(jid=1,wchan=0,gchan=1,temp=0,death=0) <3> SCore-D:DEBUG run_fep(jid=1,status=3,kill=0) <3> SCore-D:DEBUG check_checkpoint(ckpt_on=0,checkpointing=0,debug=0,cpu_time=10.151[S],next=0.0[m]) <3> SCore-D:DEBUG TSS timer STARTS (jid=1) <0> SCORE-D:DEBUG putenv LD_LIBRARY_PATH=/opt/score/deploy/lib.i386-fedoracore3-linux2_6 <1> SCORE-D:DEBUG putenv LD_LIBRARY_PATH=/opt/score/deploy/lib.i386-fedoracore3-linux2_6 <3> SCore-D:DEBUG wakeup_job(jid=1,ident=1) <2> SCORE-D:DEBUG putenv LD_LIBRARY_PATH=/opt/score/deploy/lib.i386-fedoracore3-linux2_6 <3> SCORE-D:DEBUG putenv LD_LIBRARY_PATH=/opt/score/deploy/lib.i386-fedoracore3-linux2_6 <1> SCORE-D:DEBUG <0> SCORE-D:DEBUG <3> SCORE-D:DEBUG umask=022 <3> SCORE-D:DEBUG exec(/var/scored/singleuser/0/jobs/jid-1/a.out.1=./a.out,(null)) <1> SCore-D:TRACE(../idle.cc:628) fd_syscall is closed <1> SCore-D:TRACE(../idle.cc:679) fd_socket <1> SCore-D:DEBUG IDLE:FD_SYSCALL:-1=>203 <1> SCore-D:DEBUG IDLE:FD_SCWAIT:-1=>203 <1> SCore-D:TRACE(../idle.cc:679) fd_socket <1> SCore-D:DEBUG IDLE:FD_SAVE:200=>205 <1> SCore-D:DEBUG IDLE:FD_RSTR:201=>205 <1> SCore-D:TRACE(../idle.cc:679) fd_socket <1> SCore-D:TRACE(../idle.cc:742) IDLE:FD_NETWORK <2> SCORE-D:DEBUG umask=022 <1> SCORE-D:DEBUG exec(/var/scored/singleuser/0/jobs/jid-1/a.out.1=./a.out,(null)) umask=022 <0> SCORE-D:DEBUG exec(/var/scored/singleuser/0/jobs/jid-1/a.out.1=./a.out,(null)) umask=022 <2> SCORE-D:DEBUG exec(/var/scored/singleuser/0/jobs/jid-1/a.out.1=./a.out,(null)) <1> SCore-D:DEBUG score_send_fd() <1> SCore-D:DEBUG score_send_fd() <2> SCore-D:TRACE(../idle.cc:628) fd_syscall is closed <0> SCore-D:TRACE(../idle.cc:628) fd_syscall is closed <0> SCore-D:TRACE(../idle.cc:679) fd_socket <0> SCore-D:DEBUG IDLE:FD_SYSCALL:-1=>204 <0> SCore-D:DEBUG IDLE:FD_SCWAIT:-1=>204 <0> SCore-D:TRACE(../idle.cc:679) fd_socket <0> SCore-D:DEBUG IDLE:FD_SAVE:201=>206 <0> SCore-D:DEBUG IDLE:FD_RSTR:202=>206 <0> SCore-D:TRACE(../idle.cc:679) fd_socket <0> SCore-D:TRACE(../idle.cc:742) IDLE:FD_NETWORK <0> SCore-D:DEBUG score_send_fd() <0> SCore-D:DEBUG score_send_fd() <2> SCore-D:TRACE(../idle.cc:679) fd_socket <2> SCore-D:DEBUG IDLE:FD_SYSCALL:-1=>203 <2> SCore-D:DEBUG IDLE:FD_SCWAIT:-1=>203 <2> SCore-D:TRACE(../idle.cc:679) fd_socket <2> SCore-D:DEBUG IDLE:FD_SAVE:200=>205 <2> SCore-D:DEBUG IDLE:FD_RSTR:201=>205 <2> SCore-D:TRACE(../idle.cc:679) fd_socket <2> SCore-D:TRACE(../idle.cc:742) IDLE:FD_NETWORK <2> SCore-D:DEBUG score_send_fd() <2> SCore-D:DEBUG score_send_fd() <3> SCore-D:TRACE(../idle.cc:628) fd_syscall is closed <3> SCore-D:TRACE(../idle.cc:679) fd_socket <3> SCore-D:DEBUG IDLE:FD_SYSCALL:-1=>205 <3> SCore-D:DEBUG IDLE:FD_SCWAIT:-1=>205 <3> SCore-D:TRACE(../idle.cc:679) fd_socket <3> SCore-D:DEBUG IDLE:FD_SAVE:202=>207 <3> SCore-D:DEBUG IDLE:FD_RSTR:203=>207 <3> SCore-D:TRACE(../idle.cc:679) fd_socket <3> SCore-D:TRACE(../idle.cc:742) IDLE:FD_NETWORK <3> SCore-D:DEBUG score_send_fd() <3> SCore-D:DEBUG score_send_fd() <0:0> SCORE: 4 nodes (4x1) ready. hello, world (from node 1) <1> SCore-D:TRACE(../idle.cc:628) fd_syscall is closed <0> SCore-D:TRACE(../idle.cc:628) fd_syscall is closed hello, world (from node 3) <3> SCore-D:TRACE(../idle.cc:628) fd_syscall is closed <2> SCore-D:TRACE(../idle.cc:628) fd_syscall is closed hello, world (from node 0) <3> SCore-D:DEBUG fep_stopped(key=406038567,jid=1,uid=0) hello, world (from node 2) <3> SCore-D:DEBUG TSS timer EXPIRES (jid=1) <3> SCore-D:DEBUG exit_status()=0 <3> SCore-D:DEBUG <<<<<<<<<<< TERMINATED (jid=1) >>>>>>>>>>> <3> SCore-D:DEBUG remove_job_file(/var/scored/singleuser/0/job-descs/jid-1) <3> SCore-D:DEBUG >> free_fep(jid=1,node=0,exit=0x0) <3> SCore-D:TRACE(../fep.cc:838) free_fep() <3> SCore-D:TRACE(../fep.cc:841) free_fep() <0> SCore-D:TRACE(../fepio.cc:443) >> flush_fepio() <0> SCore-D:DEBUG flush_fepio(status=3) <0> SCore-D:TRACE(../fepio.cc:466) << flush_fepio() <0> SCore-D:TRACE(../subjob.cc:221) >> free_subjob() <0> SCore-D:DEBUG free_pegroup(flag_dontclear=0) <0> SCore-D:DEBUG killpg(13381,9)=3 <0> SCore-D:DEBUG >> free_pe(scio=0) <1> SCore-D:DEBUG free_pegroup(flag_dontclear=0) <0> SCore-D:TRACE(../pe.cc:487) >> flush_pe() <0> SCore-D:TRACE(../pe.cc:512) flush_pe() <0> SCore-D:TRACE(../pe.cc:516) << flush_pe() <3> SCore-D:TRACE(../fepio.cc:443) >> flush_fepio() <1> SCore-D:DEBUG killpg(13373,9)=3 <1> SCore-D:DEBUG >> free_pe(scio=0) <1> SCore-D:TRACE(../pe.cc:487) >> flush_pe() <0> SCore-D:TRACE(../pe.cc:531) free_pe <0> SCore-D:TRACE(../pe.cc:535) free_pe <0> SCore-D:DEBUG >> close_attach_fds(netset_num=1) <1> SCore-D:TRACE(../pe.cc:512) flush_pe() <0> SCore-D:DEBUG close_attach_fds(dev=1,np=1) <0> SCore-D:DEBUG close_attach_fds(dev=0,np=0,cntxt=0x81e5ed8) <0> SCore-D:DEBUG << close_attach_fds() <0> SCore-D:TRACE(../pe.cc:539) free_pe <0> SCore-D:TRACE(../pe.cc:543) free_pe <0> SCore-D:TRACE(../pe.cc:547) free_pe <0> SCore-D:TRACE(../pe.cc:551) free_pe <0> SCore-D:TRACE(../pe.cc:574) free_pe <0> SCore-D:TRACE(../pe.cc:578) << free_pe <2> SCore-D:DEBUG free_pegroup(flag_dontclear=0) <2> SCore-D:DEBUG killpg(13354,9)=3 <2> SCore-D:DEBUG >> free_pe(scio=0) <2> SCore-D:TRACE(../pe.cc:487) >> flush_pe() <2> SCore-D:TRACE(../pe.cc:512) flush_pe() <3> SCore-D:DEBUG flush_fepio(status=3) <3> SCore-D:TRACE(../fepio.cc:466) << flush_fepio() <3> SCore-D:TRACE(../fep.cc:843) free_fep() <3> SCore-D:TRACE(../fep.cc:845) free_fep() <3> SCore-D:TRACE(../fepio.cc:443) >> flush_fepio() <3> SCore-D:DEBUG flush_fepio(status=3) <3> SCore-D:TRACE(../fepio.cc:466) << flush_fepio() <3> SCore-D:TRACE(../fep.cc:847) free_fep() <3> SCore-D:TRACE(../fep.cc:849) free_fep() <3> SCore-D:TRACE(../fep.cc:851) free_fep() <3> SCore-D:DEBUG free_pegroup(flag_dontclear=0) <1> SCore-D:TRACE(../pe.cc:516) << flush_pe() <1> SCore-D:TRACE(../pe.cc:531) free_pe <1> SCore-D:TRACE(../pe.cc:535) free_pe <1> SCore-D:DEBUG >> close_attach_fds(netset_num=1) <1> SCore-D:DEBUG close_attach_fds(dev=1,np=1) <1> SCore-D:DEBUG close_attach_fds(dev=0,np=0,cntxt=0x81e5e80) <1> SCore-D:DEBUG << close_attach_fds() <3> SCore-D:DEBUG killpg(13391,9)=3 <3> SCore-D:DEBUG >> free_pe(scio=0) <3> SCore-D:TRACE(../pe.cc:487) >> flush_pe() <3> SCore-D:TRACE(../pe.cc:512) flush_pe() <3> SCore-D:TRACE(../pe.cc:516) << flush_pe() <3> SCore-D:TRACE(../pe.cc:531) free_pe <3> SCore-D:TRACE(../pe.cc:535) free_pe <3> SCore-D:DEBUG >> close_attach_fds(netset_num=1) <3> SCore-D:DEBUG close_attach_fds(dev=1,np=1) <3> SCore-D:DEBUG close_attach_fds(dev=0,np=0,cntxt=0x81e5f38) <3> SCore-D:DEBUG << close_attach_fds() <3> SCore-D:TRACE(../pe.cc:539) free_pe <3> SCore-D:TRACE(../pe.cc:543) free_pe <3> SCore-D:TRACE(../pe.cc:547) free_pe <3> SCore-D:TRACE(../pe.cc:551) free_pe <3> SCore-D:TRACE(../pe.cc:574) free_pe <3> SCore-D:TRACE(../pe.cc:578) << free_pe <1> SCore-D:TRACE(../pe.cc:539) free_pe <1> SCore-D:TRACE(../pe.cc:543) free_pe <1> SCore-D:TRACE(../pe.cc:547) free_pe <1> SCore-D:TRACE(../pe.cc:551) free_pe <1> SCore-D:TRACE(../pe.cc:574) free_pe <1> SCore-D:TRACE(../pe.cc:578) << free_pe <2> SCore-D:TRACE(../pe.cc:516) << flush_pe() <2> SCore-D:TRACE(../pe.cc:531) free_pe <2> SCore-D:TRACE(../pe.cc:535) free_pe <2> SCore-D:DEBUG >> close_attach_fds(netset_num=1) <2> SCore-D:DEBUG close_attach_fds(dev=1,np=1) <2> SCore-D:DEBUG close_attach_fds(dev=0,np=0,cntxt=0x81e5f38) <2> SCore-D:DEBUG << close_attach_fds() <2> SCore-D:TRACE(../pe.cc:539) free_pe <2> SCore-D:TRACE(../pe.cc:543) free_pe <2> SCore-D:TRACE(../pe.cc:547) free_pe <2> SCore-D:TRACE(../pe.cc:551) free_pe <2> SCore-D:TRACE(../pe.cc:574) free_pe <2> SCore-D:TRACE(../pe.cc:578) << free_pe <0> SCore-D:TRACE(../subjob.cc:225) free_subjob() <0> SCore-D:TRACE(../subjob.cc:232) free_subjob() <0> SCore-D:DEBUG fepio_close() <0> SCore-D:TRACE(../subjob.cc:236) free_subjob() <0> SCore-D:TRACE(../subjob.cc:241) << free_subjob() <0> SCore-D:DEBUG >> finalize_host(0) <0> SCore-D:TRACE(../scoredir.cc:389) cleanup_scored_dir() <1> SCore-D:DEBUG >> finalize_host(0) <0> SCore-D:DEBUG << finalize_host() <1> SCore-D:TRACE(../scoredir.cc:389) cleanup_scored_dir() <1> SCore-D:DEBUG << finalize_host() <3> SCore-D:TRACE(../fep.cc:853) free_fep() <2> SCore-D:DEBUG >> finalize_host(0) <2> SCore-D:TRACE(../scoredir.cc:389) cleanup_scored_dir() <2> SCore-D:DEBUG << finalize_host() <3> SCore-D:TRACE(../fep.cc:856) free_fep() <3> SCore-D:DEBUG fepio_close() <3> SCore-D:DEBUG fds_select[199] <3> SCore-D:TRACE(../fep.cc:862) free_fep(jobc) <3> SCore-D:TRACE(../fep.cc:866) << free_fep <3> SCore-D:DEBUG >> finalize_host(0) <3> SCore-D:TRACE(../scoredir.cc:389) cleanup_scored_dir() <3> SCore-D:DEBUG << finalize_host() -------------------------------------- [10th Anniversary] special auction campaign now! http://pr.mail.yahoo.co.jp/auction/ From kameyama @ pccluster.org Tue Sep 12 17:33:52 2006 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Tue, 12 Sep 2006 17:33:52 +0900 Subject: [SCore-users-jp] kernel =?ISO-2022-JP?B?GyRCSVQ2cTlnISkbKEI=?= In-Reply-To: <20060912074143.37918.qmail@web2201.mail.yahoo.co.jp> References: <20060912074143.37918.qmail@web2201.mail.yahoo.co.jp> Message-ID: <450670F0.6050800@pccluster.org> 亀山です. vqm_mp wrote: > 2重起動,実行にならないように注意しながら,PM_DEBUGを > 1にして, scorehosts.db で msgbserv は設定していますでしょうか? msgbserv デーモンは動いていますでしょうか? scout のテスト http://www.pccluster.org/score/dist/score/html/ja/installation/scout-test.html で scout ls などを行ったとき, msgb の色は変わっていますでしょうか? (これができていれば, rpmtest のプロセスを残していない限り, 二重起動しないはずなのですが...) > scrun -nodes=4,scoredtrace=100 ./a.out > を行いました.何も反応がない(プロンプトが返ってこず, > scrun.exeが動いたままの状態になっている)か,あるいは > 以下の出力になります. 下の出力では, 正常終了しているようです. (hello, world は 4 つでていますし...) PM/Ethernet が open できなかったのは二重起動のためだったんでしょうか? 何も反応がないというのが気になりますね. scoredtrace を 0 にして実行してみてください. (scoredtrace は少ない程出力が多くなります.) Kameyama Toyohisa From vqm_mp @ yahoo.co.jp Tue Sep 12 18:43:17 2006 From: vqm_mp @ yahoo.co.jp (vqm_mp) Date: Tue, 12 Sep 2006 18:43:17 +0900 (JST) Subject: [SCore-users-jp] kernel =?ISO-2022-JP?B?GyRCSVQ2cTlnISkbKEI=?= In-Reply-To: <450670F0.6050800@pccluster.org> Message-ID: <20060912094317.53007.qmail@web2201.mail.yahoo.co.jp> ありがとうございます.明大の鈴木です. > > scorehosts.db で msgbserv > は設定していますでしょうか? > msgbserv デーモンは動いていますでしょうか? > scout のテスト > > http://www.pccluster.org/score/dist/score/html/ja/installation/scout-test.html > で > scout ls > などを行ったとき, msgb > の色は変わっていますでしょうか? > (これができていれば, rpmtest > のプロセスを残していない限り, > 二重起動しないはずなのですが...) > > PM/Ethernet が open > できなかったのは二重起動のためだったんでしょうか? > scout ls, scout dateは青が赤色になって正常に出力が 返ってきます.当初からmsgbserv デーモンが動いている ことを確認しているつもりです. > 何も反応がないというのが気になりますね. > scoredtrace を 0 にして実行してみてください. scrun -nodes=2,scoredtrace=0 ./a.out を行いました.やはり3パターンになりました. 3パターン目は正常に動いている場合であると思います. *******1パターン目******** <0> SCore-D:DEBUG sizeof(Cluster)=4556 <0> SCore-D:DEBUG sizeof(Job)=7308 <0> SCore-D:DEBUG sizeof(Allocation)=32 <0> SCore-D:DEBUG sizeof(SchedQueue)=280 <0> SCore-D:DEBUG sizeof(FEP)=14272 <0> SCore-D:DEBUG sizeof(Subjob)=6124 <0> SCore-D:DEBUG sizeof(ControlTree)=1572 <0> SCore-D:DEBUG sizeof(PE)=15204 <0> SCore-D:DEBUG sizeof(PPE)=4236 <0> SCore-D:DEBUG sizeof(PeGroup)=5148 <0> SCore-D:DEBUG sizeof(Timer)=52 <0> SCore-D:DEBUG sizeof(NetworkContext)=176 <0> SCore-D:DEBUG sizeof(SocketAddress)=136 <0> SCore-D:DEBUG sizeof(Carea)=71072 ここで出力が止まり,その後何も反応がないため, kill -9 コマンドで強制終了する(-9 オプションが ないとkillできない)ことになる. ************************** *******2パターン目******** 途中略 <0> SCORE-D:DEBUG size_file=342740 <0> SCORE-D:DEBUG size_file=341352 <0> SCORE-D:DEBUG size_file=339964 <0> SCORE-D:DEBUG size_file=338576 <0> SCORE-D:DEBUG size_file=3371FEP:PANIC too large message (tag=56,size=14346) <0> SCore-D:TRACE(../fepio.cc:199) fepio_write() RETRY <0> SCore-D:TRACE(../fepio.cc:214) fepio_write() RESUMED <0> SCore-D:DEBUG << pe_mesg_out() <0> SCore-D:TRACE(../fepio.cc:391) FEP_MESG_UNLOCK <0> SCore-D:DEBUG >> pe_mesg_out(tag=6) <0> SCore-D:DEBUG pe_mesg_out(size=1021) <0> SCore-D:TRACE(../fepio.cc:375) FEP_MESG_LOCK <0> SCore-D:DEBUG fepio_write(fd=200) <0> SCore-D:TRACE(../fepio.cc:435) FEP_MESG_UNLOCK 途中略 <1> SCore-D:DEBUG >> pe_mesg_out(tag=6) <1> SCore-D:DEBUG pe_mesg_out(CLOSED,tag=6) <1> SCore-D:DEBUG >> pe_mesg_out(tag=5) <1> SCore-D:DEBUG pe_mesg_out(size=27) <1> SCore-D:TRACE(../fepio.cc:375) FEP_MESG_LOCK <1> SCore-D:DEBUG << pe_mesg_out() <1> SCore-D:TRACE(../fepio.cc:391) FEP_MESG_UNLOCK <1> SCore-D:DEBUG >> pe_mesg_out(tag=5) <1> SCore-D:DEBUG pe_mesg_out(CLOSED,tag=5) <1> SCore-D:TRACE(../tss.cc:834) TSS scheduler ... idling <1> SCore-D:TRACE(../tss.cc:834) TSS scheduler ... idling <1> SCore-D:TRACE(../tss.cc:834) TSS scheduler ... idling <1> SCore-D:TRACE(../tss.cc:834) TSS scheduler ... idling <1> SCore-D:TRACE(../tss.cc:834) TSS scheduler ... idling <1> SCore-D:TRACE(../tss.cc:834) TSS scheduler ... idling <1> SCore-D:TRACE(../tss.cc:834) TSS scheduler ... idling <1> SCore-D:TRACE(../tss.cc:834) TSS scheduler ... idling 以下 "<1> SCore-D:TRACE(../tss.cc:834) TSS scheduler ... idling" が永遠と続く.これはCtrl+Cで止めることができる. ************************** *******3パターン目******** <0> SCore-D:DEBUG sizeof(Cluster)=4556 <0> SCore-D:DEBUG sizeof(Job)=7308 <0> SCore-D:DEBUG sizeof(Allocation)=32 <0> SCore-D:DEBUG sizeof(SchedQueue)=280 <0> SCore-D:DEBUG sizeof(FEP)=14272 <0> SCore-D:DEBUG sizeof(Subjob)=6124 <0> SCore-D:DEBUG sizeof(ControlTree)=1572 <0> SCore-D:DEBUG sizeof(PE)=15204 <0> SCore-D:DEBUG sizeof(PPE)=4236 <0> SCore-D:DEBUG sizeof(PeGroup)=5148 <0> SCore-D:DEBUG sizeof(Timer)=52 <0> SCore-D:DEBUG sizeof(NetworkContext)=176 <0> SCore-D:DEBUG sizeof(SocketAddress)=136 <0> SCore-D:DEBUG sizeof(Carea)=71072 <0> SCore-D:DEBUG numNode=4 <0> SCore-D:TRACE(../init.cc:168) >> initialize_host() <0> SCore-D:DEBUG >> initialize_syslog(:0) <0> SCore-D:DEBUG << initialize_syslog(0) 途中略 <0> SCore-D:TRACE(../subjob.cc:225) free_subjob() <0> SCore-D:TRACE(../subjob.cc:232) free_subjob() <0> SCore-D:DEBUG fepio_close() <0> SCore-D:DEBUG fepio_close_fd() <0> SCore-D:TRACE(../fepio.cc:134) FEP_MESG_LOCK <0> SCore-D:TRACE(../subjob.cc:236) free_subjob() <0> SCore-D:TRACE(../subjob.cc:241) << free_subjob() <0> SCore-D:DEBUG >> finalize_host(0) <0> SCore-D:TRACE(../scoredir.cc:389) cleanup_scored_dir() <1> SCore-D:DEBUG >> finalize_host(0) <1> SCore-D:TRACE(../scoredir.cc:389) cleanup_scored_dir() <0> SCore-D:DEBUG << finalize_host() <1> SCore-D:DEBUG << finalize_host() ************************** -------------------------------------- [10th Anniversary] special auction campaign now! http://pr.mail.yahoo.co.jp/auction/ From kameyama @ pccluster.org Tue Sep 12 21:05:44 2006 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Tue, 12 Sep 2006 21:05:44 +0900 Subject: [SCore-users-jp] kernel =?ISO-2022-JP?B?GyRCSVQ2cTlnISkbKEI=?= In-Reply-To: <20060912094317.53007.qmail@web2201.mail.yahoo.co.jp> References: <20060912094317.53007.qmail@web2201.mail.yahoo.co.jp> Message-ID: <4506A298.7040106@pccluster.org> 亀山です. vqm_mp wrote: > <0> SCore-D:DEBUG sizeof(Cluster)=4556 > <0> SCore-D:DEBUG sizeof(Job)=7308 > <0> SCore-D:DEBUG sizeof(Allocation)=32 > <0> SCore-D:DEBUG sizeof(SchedQueue)=280 > <0> SCore-D:DEBUG sizeof(FEP)=14272 > <0> SCore-D:DEBUG sizeof(Subjob)=6124 > <0> SCore-D:DEBUG sizeof(ControlTree)=1572 > <0> SCore-D:DEBUG sizeof(PE)=15204 > <0> SCore-D:DEBUG sizeof(PPE)=4236 > <0> SCore-D:DEBUG sizeof(PeGroup)=5148 > <0> SCore-D:DEBUG sizeof(Timer)=52 > <0> SCore-D:DEBUG sizeof(NetworkContext)=176 > <0> SCore-D:DEBUG sizeof(SocketAddress)=136 > <0> SCore-D:DEBUG sizeof(Carea)=71072 > ここで出力が止まり,その後何も反応がないため, > kill -9 コマンドで強制終了する(-9 オプションが > ないとkillできない)ことになる. > ************************** この状態で止めるときは, 計算ホストにも scored などが残っている可能性が ありますので, kill-all -g pcc scored などで, 計算ボスとのプロセスを殺してください. (計算ホストの process を殺せば scrun も終わるはずです.) > *******2パターン目******** > 途中略 > <0> SCORE-D:DEBUG size_file=342740 > <0> SCORE-D:DEBUG size_file=341352 > <0> SCORE-D:DEBUG size_file=339964 > <0> SCORE-D:DEBUG size_file=338576 > <0> SCORE-D:DEBUG size_file=3371FEP:PANIC too large > message (tag=56,size=14346) 多分, 問題はこれです. SCore-D から scrun への通信で変なものを送っているためパニックしています. 残念ながら SCore 5.8.3 http://www.pccluster.org/score/dist/score/html/ja/release/new5-8-3.html の制限事項 2. 大量の出力があるプログラムを動かすと SCore-D がクラッシュすること があります。 にあたりそうです. (私は SCore-D が大量の出力をした場合しかこのメッセージをみませんでしたが...) Kameyama Toyohisa From vqm_mp @ yahoo.co.jp Wed Sep 13 10:41:48 2006 From: vqm_mp @ yahoo.co.jp (vqm_mp) Date: Wed, 13 Sep 2006 10:41:48 +0900 (JST) Subject: [SCore-users-jp] kernel =?ISO-2022-JP?B?GyRCSVQ2cTlnISkbKEI=?= In-Reply-To: <4506A298.7040106@pccluster.org> Message-ID: <20060913014148.26946.qmail@web2206.mail.yahoo.co.jp> お世話様です.明治大学の鈴木です. > 2. 大量の出力があるプログラムを動かすと SCore-D > がクラッシュすること > があります。 > にあたりそうです. Hello worldを動かしているだけだったのですが... -------------------------------------- [10th Anniversary] special auction campaign now! http://pr.mail.yahoo.co.jp/auction/ From kameyama @ pccluster.org Wed Sep 13 10:50:24 2006 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Wed, 13 Sep 2006 10:50:24 +0900 Subject: [SCore-users-jp] kernel =?ISO-2022-JP?B?GyRCSVQ2cTlnISkbKEI=?= In-Reply-To: <20060913014148.26946.qmail@web2206.mail.yahoo.co.jp> References: <20060913014148.26946.qmail@web2206.mail.yahoo.co.jp> Message-ID: <450763E0.1080403@pccluster.org> 亀山です. vqm_mp wrote: >> 2. 大量の出力があるプログラムを動かすと SCore-D >> がクラッシュすること >> があります。 >> にあたりそうです. > > Hello worldを動かしているだけだったのですが... SCore はプログラムを動かす前に, そのプログラムを各計算ホストの local 領域にコピーします. エラーはそのコピーを行っているときにおこっています. (大量の出力が無いので, なぜこの時点でこのようになるのか不明ですが...) Kameyama Toyohisa From hori @ allinea.com Wed Sep 13 11:27:31 2006 From: hori @ allinea.com (Atsushi HORI) Date: Wed, 13 Sep 2006 11:27:31 +0900 Subject: =?ISO-2022-JP?B?UmU6IFtTQ29yZS11c2Vycy1qcF0ga2VybmVsIBskQklUGyhC?= =?ISO-2022-JP?B?GyRCNnE5ZyEpGyhCIA==?= In-Reply-To: <20060913014148.26946.qmail@web2206.mail.yahoo.co.jp> References: <20060913014148.26946.qmail@web2206.mail.yahoo.co.jp> Message-ID: On 2006/09/13, at 10:41, vqm_mp wrote: >> 2. 大量の出力があるプログラムを動かすと SCore-D >> がクラッシュすること >> があります。 >> にあたりそうです. > > Hello worldを動かしているだけだったのですが... ネットワークが遅い環境だと起きる可能性があります。 いずれにせよ、この問題は10月終わり頃に出る SCore 6.0 で 解決されるのそれまで待っていただくことは可能でしょうか? From vqm_mp @ yahoo.co.jp Wed Sep 13 11:56:21 2006 From: vqm_mp @ yahoo.co.jp (vqm_mp) Date: Wed, 13 Sep 2006 11:56:21 +0900 (JST) Subject: [SCore-users-jp] kernel =?ISO-2022-JP?B?GyRCSVQ2cTlnISkbKEI=?= In-Reply-To: Message-ID: <20060913025621.73002.qmail@web2201.mail.yahoo.co.jp> 明治大学の鈴木です. 皆様,どうもありがとうございました. それでは次期リリースを待って,もう一度試みたいと 思います. --- Atsushi HORI wrote: > > On 2006/09/13, at 10:41, vqm_mp wrote: > > >> 2. 大量の出力があるプログラムを動かすと > SCore-D > >> がクラッシュすること > >> があります。 > >> にあたりそうです. > > > > Hello worldを動かしているだけだったのですが... > > ネットワークが遅い環境だと起きる可能性があります。 > > いずれにせよ、この問題は10月終わり頃に出る SCore > 6.0 で > 解決されるのそれまで待っていただくことは可能でしょうか ? > > > _______________________________________________ > SCore-users-jp mailing list > SCore-users-jp @ pccluster.org > http://www.pccluster.org/mailman/listinfo/score-users-jp > -------------------------------------- [10th Anniversary] special auction campaign now! http://pr.mail.yahoo.co.jp/auction/ From vqm_mp @ yahoo.co.jp Fri Sep 15 23:37:06 2006 From: vqm_mp @ yahoo.co.jp (vqm_mp) Date: Fri, 15 Sep 2006 23:37:06 +0900 (JST) Subject: [SCore-users-jp] SCRUN: Unauthorized connection Message-ID: <20060915143706.2248.qmail@web2204.mail.yahoo.co.jp> 明治大学の鈴木です. これまでとは新たに,質問します.先日までとはコンピュータ 環境を変えて,以下のもとで動かすことを試みております. Fedora Core 3 i386 SCore 5.8.3 rpm CPU:Pentium D 14台 ネットワーク:gigabit-ehernet スイッチ:PLANEX FXG-24IMV [root @ comp01 ~]# cat /proc/pm/ethernet/0/info PM Ethernet 0330 Version : "$Id: pm_ethernet_dev.c,v 1.14 2005/10/10 04:49:13 s-sumi Exp $" Device : eth0 Irq : 0 MTU : 1468 Bytes Maxnodes : 512 MaxContext : 16 Intreap : on Checksum : off Dev error : 0 Header err : 0 Header cksum err: 0 Data cksum err : 0 Underrun err : 0 PMテストを無事に終え, scrun -nodes=1 ./a.out scrun -nodes=1x2 ./a.out までは正常に動くのですが,2ホスト以上の並列を行うと (例えば scrun -nodes=2x1 ./a.out), SCore-D 5.8.3 connected. SCRUN: Unauthorized connection (<1> ULT:PANIC Node (805306368) out of range (ultRemoteMemWrite)INET). となってしまいます. scrun -nodes=2x1,scoredtrace=0 ./a.out では, 途中略 <1> SCore-D:DEBUG >> fepio_read() <1> SCore-D:DEBUG fepio_read(fd=200) BLOCKED <2> SCore-D:TRACE(../tss.cc:422) enqueue_tss() <2> SCore-D:TRACE(../tss.cc:426) << enqueue_tss() <2> SCore-D:DEBUG create_job_file(ckpt_seq=0) <0> SCore-D:DEBUG put_job_file(/var/scored/singleuser/502/job-descs.bak/jid-1) <2> SCore-D:DEBUG scored_syslog(0) <1> SCore-D:DEBUG >> user_control <2> SCore-D:DEBUG << createJob(jid=1) <2> SCore-D:TRACE(../login.cc:234) << login() <2> SCore-D:TRACE(../login.cc:380) << single_user_login <2> SCore-D:DEBUG isnot_ready_to_run(jid=1,wchan=0,gchan=0,temp=0,death=0) <1> SCore-D:DEBUG put_alloc_info(n=0,loc=0,nh=2,np=1,nn=2) SCRUN: Unauthorized connection (<2> SCore-D:DEBUG max_buddy(nh=2,loc=0,sz=3,mem=0/3674,disk=0/148041) <2> SCore-D:DEBUG max_load(loc=0,sz=2)=1 <2> SCore-D:DEBUG max_load(loc=1,sz=2)=1 <1> SCore-D:DEBUG run_fep(jid=1,status=1,kill=0) <1> SCore-D:DEBUG >> create_subjobs(subjob_num=1) <0> SCore-D:DEBUG >> createSubjob(JID=1,subjobID=0) <2> SCore-D:DEBUG <<<<<<<<<<< RUN (jid=1) >>>>>>>>>>> <2> SCore-D:DEBUG reset_wchan(jid=1,wchan=0,gchan=0,temp=0,death=0) <0> SCore-D:DEBUG fepio_open() <0> SCore-D:TRACE(../fepio.cc:106) FEP_MESG_UNLOCK <2> SCore-D:DEBUG is_acceptable_network(*,ethernet) <1> ULT:PANIC PM Error pmGetSendBuffer(dst=0,len=-8)=22 <1> Attaching GDB: ULT PANIC INET). となります. たびたび申し訳ございませんが,原因と対応策をご教示下さい . -------------------------------------- [10th Anniversary] special auction campaign now! http://pr.mail.yahoo.co.jp/auction/ From kameyama @ pccluster.org Tue Sep 19 12:53:38 2006 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Tue, 19 Sep 2006 12:53:38 +0900 Subject: [SCore-users-jp] SCRUN: Unauthorized connection In-Reply-To: <20060915143706.2248.qmail@web2204.mail.yahoo.co.jp> References: <20060915143706.2248.qmail@web2204.mail.yahoo.co.jp> Message-ID: <450F69C2.2000302@pccluster.org> 亀山です. vqm_mp wrote: > PMテストを無事に終え, > > scrun -nodes=1 ./a.out > scrun -nodes=1x2 ./a.out > > までは正常に動くのですが,2ホスト以上の並列を行うと > (例えば scrun -nodes=2x1 ./a.out), > > SCore-D 5.8.3 connected. > SCRUN: Unauthorized connection (<1> ULT:PANIC Node > (805306368) out of range (ultRemoteMemWrite)INET). > > となってしまいます. scrun が scored を起動して scored が scrun と接続するとき, scrun が key を送って, scored がそれを返すのですが, その key が一致しないとき, Unauthorized connection になります. SCore-D 側の ultRemoteMemWrite のエラーも普通じゃないようです. SCore-D の binary が計算ホスト間で異なっている可能性が高いと 思いますが... Kameyama Toyohisa From vqm_mp @ yahoo.co.jp Tue Sep 19 23:03:22 2006 From: vqm_mp @ yahoo.co.jp (vqm_mp) Date: Tue, 19 Sep 2006 23:03:22 +0900 (JST) Subject: [SCore-users-jp] SCRUN: Unauthorized connection In-Reply-To: <450F69C2.2000302@pccluster.org> Message-ID: <20060919140322.77380.qmail@web2206.mail.yahoo.co.jp> 鈴木です. > > scrun が scored を起動して scored が scrun と接続 > するとき,scrun が key を送って, scored がそれを返す > のですが,その key が一致しないとき, Unauthorized > connection になります.SCore-D 側の ultRemoteMemWrite > のエラーも普通じゃないようです.SCore-D の binary が > 計算ホスト間で異なっている可能性が高いと思いますが... すべて同じrpmを使ってインストールしているので 計算ホスト間のバイナリ−は同じです. これまではSingle-User環境でしたが,あらたにMulti-User 環境で試してみようと,scoredを立ち上げてみました. すると, <1> SCore-D:WARNING Unable to open console port (9991) <1> SCore-D:ERROR Unable to open server port (9901) というメッセージが出力されます. この元で実際にプログラムを走らせようとすると, FEP:ERROR LOGIN protocol error というエラーメッセージが出力されます. これが原因でしょうか? -------------------------------------- [10th Anniversary] special auction campaign now! http://pr.mail.yahoo.co.jp/auction/ From kameyama @ pccluster.org Wed Sep 20 10:16:38 2006 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Wed, 20 Sep 2006 10:16:38 +0900 Subject: [SCore-users-jp] SCRUN: Unauthorized connection In-Reply-To: <20060919140322.77380.qmail@web2206.mail.yahoo.co.jp> References: <20060919140322.77380.qmail@web2206.mail.yahoo.co.jp> Message-ID: <45109676.6000704@pccluster.org> 亀山です. vqm_mp wrote: > すべて同じrpmを使ってインストールしているので > 計算ホスト間のバイナリ−は同じです. > > これまではSingle-User環境でしたが,あらたにMulti-User > 環境で試してみようと,scoredを立ち上げてみました. > すると, > <1> SCore-D:WARNING Unable to open console port (9991) > > <1> SCore-D:ERROR Unable to open server port (9901) > というメッセージが出力されます. この port を使っている program があるので, open できなかった のだと思います. netstat -l で使用しているプログラムがあるかどうか確認できます. どのプログラムかは lsof -iTCP:9901 とかで分かると思います. > この元で実際にプログラムを走らせようとすると, > FEP:ERROR LOGIN protocol error > というエラーメッセージが出力されます. scored とは別のプログラムが応答しているのかもしれません. Kameyama Toyohisa From vqm_mp @ yahoo.co.jp Wed Sep 20 12:05:22 2006 From: vqm_mp @ yahoo.co.jp (vqm_mp) Date: Wed, 20 Sep 2006 12:05:22 +0900 (JST) Subject: [SCore-users-jp] SCRUN: Unauthorized connection In-Reply-To: <45109676.6000704@pccluster.org> Message-ID: <20060920030522.87078.qmail@web2207.mail.yahoo.co.jp> 鈴木です. # lsof -iTCP:9901 # lsof -iTCP:9991 を試してみたところ,計算ホストにおいて,xinetdが両方の ポート9901と9991を占有していました.そこで,   /etc/xinetd.d/scored-console   /etc/xinetd.d/scored-login のなかのserver_argとportの値を変更しました.これによって ポート関係のエラーとFEP:ERROR LOGIN protocol error は出なくなりました. 早速,score_devを起動し,/opt/score/example/mttl/hello.cc を走らせると,scored_devを起動したwindowに以下のエラーが でます.原因がわかりますでしょうか? SYSLOG: --------- SCore-D (5.8.3) bootup -------- SYSLOG: Login request: suzuki @ server.pccluster.org:33701 SYSLOG: Login accepted: suzuki @ server.pccluster.org:33701, JID: 1, Hosts: 4(2x2)@0, Priority: 1, Command: ./a.out <1> ULT: Exception Signal (11) <1> Attaching GDB: Exception signal Using host libthread_db library "/lib/tls/libthread_db.so.1". `shared object read from target memory' has disappeared; keeping its symbols. 0xffffe410 in __kernel_vsyscall () #0 0xffffe410 in __kernel_vsyscall () #1 0x44b8496d in wait () from /lib/tls/libc.so.6 #2 0x080de358 in score_attach_debugger ( message=0x7576
, exno=11) at ../message.c:289 #3 0x080d8621 in ult_exception (sig=11, code=51, sc=0x0, addr=0x7b
) at ../mpcrt.c:124 #4 #5 0x0806cb21 in put_fep_allocs (fep_gp= {gval = {gp = {pe = 1, addr = {laddr = 0x81ef3f8, naddr = 136246264, b32s = {d1 = 136246264, d2 = 0}, b8s = {d1 = 248 '?', d2 = 243 '?', d3 = 30 '\036', d4 = 8 '\b', d5 = 0 '\0', d6 = 0 '\0', d7 = 0 '\0', d8 = 0 '\0'}}, size = 14272}}}, location_gp= {gval = {gp = {pe = 0, addr = {laddr = 0x81ed41c, naddr = 136238108, b32s = {d1 = 136238108, d2 = 0}, b8s = {d1 = 28 '\034', d2 = 212 '?', d3 = 30 '\036', d4 = 8 '\b', d5 = 0 '\0', d6 = 0 '\0', d7 = 0 '\0', d8 = 0 '\0'}}, size = 4}}}, nhosts_gp= {gval = {gp = {pe = 0, addr = {laddr = 0xd49c, naddr = 54428, b32s = {d1 = 54428, d2 = 0}, b8s = {d1 = 156 '\234', d2 = 212 '?', d3 = 0 '\0', d4 = 0 '\0', d5 = 0 '\0', d6 = 0 '\0', d7 = 0 '\0', d8 = 0 '\0'}}, size = 0}}}, nprocs_gp= {gval = {gp = {pe = 33554432, addr = {laddr = 0xb1062db3, naddr = 6577560035302714803, b32s = {d1 = 2969972147, d2 = 1531457536}, b8s = {d1 = 179 '?', d2 = 45 '-', d3 = 6 '\006', d4 = 177 '?', d5 = 0 '\0', d6 = 48 '0', d7 = 72 'H', d8 = 91 '['}}, size = 575553}}}, nnodes_gp= {gval = {gp = {pe = 872415301, addr = {laddr = 0x404bec, naddr = 6758221062774737900, b32s = {d1 = 4213740, d2 = 1573520960}, b8s = {d1 = 236 '?', d2 = 75 'K', d3 = 64 '@', d4 = 0 '\0', d5 = 64 '@', d6 = 6 '\006', d7 = 202 '?', d8 = 93 ']'}}, size = 1711384768}}}) at mpcxx_mttl.h:4820 #6 0x0808977b in _sinvoker5, GlobalPtr, GlobalPtr, GlobalPtr, GlobalPtr >::invoke () at mpcxx_mttl.h:1809 #7 0x080d85d8 in ult_jump_thread () at ../thread.c:106 /opt/score/deploy/score.gdb:1: Error in sourced command file: Previous frame inner to this frame (corrupt stack?) -------------------------------------- [10th Anniversary] special auction campaign now! http://pr.mail.yahoo.co.jp/auction/ From kameyama @ pccluster.org Wed Sep 20 13:41:57 2006 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Wed, 20 Sep 2006 13:41:57 +0900 Subject: [SCore-users-jp] SCRUN: Unauthorized connection In-Reply-To: <20060920030522.87078.qmail@web2207.mail.yahoo.co.jp> References: <20060920030522.87078.qmail@web2207.mail.yahoo.co.jp> Message-ID: <4510C695.1020402@pccluster.org> 亀山です. vqm_mp wrote: > # lsof -iTCP:9901 > # lsof -iTCP:9991 > > を試してみたところ,計算ホストにおいて,xinetdが両方の > ポート9901と9991を占有していました.そこで, >   /etc/xinetd.d/scored-console >   /etc/xinetd.d/scored-login > のなかのserver_argとportの値を変更しました.これによって > ポート関係のエラーとFEP:ERROR LOGIN protocol error > は出なくなりました. このファイルがあるということは, http://www.pccluster.org/score/dist/score/html/ja/howtouse/security.html でセキュリティをたもつように設定しているわけですね? (Unauthorized connectio もここに書かれていますね.) このモードで立ち上げる場合は, server で /etc/rc.d/init.d/sc_watch を使用してください. # /etc/rc.d/init.d/sc_watch start もしくは # /sbin/chkconfig --add sc_watch を行って server を reboot します. このコマンドで SCore-D が multi user mode で立ち上がります. SCore-D の log は /var/log/scored に書かれます. > 早速,score_devを起動し,/opt/score/example/mttl/hello.cc > を走らせると,scored_devを起動したwindowに以下のエラーが > でます.原因がわかりますでしょうか? (中略) > #5 0x0806cb21 in put_fep_allocs (fep_gp= > {gval = {gp = {pe = 1, addr = {laddr = > 0x81ef3f8, naddr = 136246264, b32s = {d1 = 136246264, d2 = > 0}, b8s = {d1 = 248 '?', d2 = 243 '?', d3 = 30 '\036', d4 > = 8 '\b', d5 = 0 '\0', d6 = 0 '\0', d7 = 0 '\0', d8 = 0 > '\0'}}, size = 14272}}}, location_gp= > {gval = {gp = {pe = 0, addr = {laddr = > 0x81ed41c, naddr = 136238108, b32s = {d1 = 136238108, d2 = > 0}, b8s = {d1 = 28 '\034', d2 = 212 '?', d3 = 30 '\036', > d4 = 8 '\b', d5 = 0 '\0', d6 = 0 '\0', d7 = 0 '\0', d8 = 0 > '\0'}}, size = 4}}}, nhosts_gp= > {gval = {gp = {pe = 0, addr = {laddr = 0xd49c, > naddr = 54428, b32s = {d1 = 54428, d2 = 0}, b8s = {d1 = > 156 '\234', d2 = 212 '?', d3 = 0 '\0', d4 = 0 '\0', d5 = 0 > '\0', d6 = 0 '\0', d7 = 0 '\0', d8 = 0 '\0'}}, size = > 0}}}, > nprocs_gp= > {gval = {gp = {pe = 33554432, addr = {laddr = > 0xb1062db3, naddr = 6577560035302714803, b32s = {d1 = > 2969972147, d2 = 1531457536}, b8s = {d1 = 179 '?', d2 = 45 > '-', d3 = 6 '\006', d4 = 177 '?', d5 = 0 '\0', d6 = 48 > '0', d7 = 72 'H', d8 = 91 '['}}, size = 575553}}}, > nnodes_gp= > {gval = {gp = {pe = 872415301, addr = {laddr = > 0x404bec, naddr = 6758221062774737900, b32s = {d1 = > 4213740, d2 = 1573520960}, b8s = {d1 = 236 '?', d2 > = 75 'K', d3 = 64 '@', d4 = 0 '\0', d5 = 64 '@', d6 = 6 > '\006', d7 = 202 '?', d8 = 93 ']'}}, size = 1711384768}}}) > at mpcxx_mttl.h:4820 何故か, nprocs_gp と nnodes_gp が初期化されていませんね... このせいで error になったのだとは思いますが, 何故こうなったかは 残念ながら分かりません. Kameyama Toyohisa From vqm_mp @ yahoo.co.jp Thu Sep 21 11:11:59 2006 From: vqm_mp @ yahoo.co.jp (vqm_mp) Date: Thu, 21 Sep 2006 11:11:59 +0900 (JST) Subject: [SCore-users-jp] SCRUN: Unauthorized connection In-Reply-To: <4510C695.1020402@pccluster.org> Message-ID: <20060921021159.69239.qmail@web2201.mail.yahoo.co.jp> 鈴木です. > http://www.pccluster.org/score/dist/score/html/ja/howtouse/security.html > でセキュリティをたもつように設定しているわけですね? > (Unauthorized connectio もここに書かれていますね.) プライベートなネットワークにてクラスター化を試みている ので,当初はこの設定をしていませんでした.しかし, Unauthorized connection のエラーが出てきたことから, 試しに設定してみた次第です.それでも同じエラーメッセージ Unauthorized connection が出力され、改善しなかったため, MLに質問を投げさせていただきました. > 何故か, nprocs_gp と nnodes_gp > が初期化されていませんね... これまでは,rpmでのインストールでしたが,ソースからの インストールで再度挑戦しました.エラーメッセージが 微妙に変わりましたので,ご報告いたします. Multi-User環境において,hello.ccを実行. [root @ server test]# scrun -scored=comp002 ./a.out SCore-D 5.8.3 connected (jid=1,reconnect=32881). SCRUN: Unauthorized connection (INET). [root @ server test]# scored_dev SYSLOG: /opt/score/deploy/scored_dev SYSLOG: SCore-D 5.8.3 $Id: init.cc,v 1.74 2005/02/24 07:47:54 hori Exp $ SYSLOG: Compile option(s): DEVELOPMENT ULT_DO_TRACE SCORE_DO_TRACE SYSLOG: SCore-D network: ethernet/ethernet SYSLOG: Cluster[0]: (0..1)x2.i386-fedoracore3-linux2_6.penD.2800 SYSLOG: Memory: 4055[MB], Swap: 1984[MB], Disk: 148135[MB] SYSLOG: Network[0]: ethernet/ethernet SYSLOG: Scheduler initiated: Timeslice = 200 [msec] SYSLOG: Queue[0] activated, exclusive scheduling SYSLOG: Queue[1] activated, time-sharing scheduling SYSLOG: Queue[2] activated, time-sharing scheduling SYSLOG: Session ID: 0 SYSLOG: Server Host: comp002.pccluster.org SYSLOG: Backup Host: comp001.pccluster.org @ 0 SYSLOG: Operated by: root SYSLOG: Recovery canceled by SCore-D: root @ server.pccluster.org:32878, JID: 1 SYSLOG: --------- SCore-D (5.8.3) bootup -------- SYSLOG: Login request: root @ server.pccluster.org:32881 SYSLOG: Login accepted: root @ server.pccluster.org:32881, JID: 1, Hosts: 4(2x2)@0, Priority: 1, Command: ./a.out <1> ULT: Exception Signal (11) <1> Attaching GDB: Exception signal Using host libthread_db library "/lib/tls/libthread_db.so.1". `shared object read from target memory' has disappeared; keeping its symbols. 0xffffe410 in __kernel_vsyscall () #0 0xffffe410 in __kernel_vsyscall () #1 0x00abc96d in wait () from /lib/tls/libc.so.6 #2 0x080de358 in score_attach_debugger ( message=0x393e
, exno=11) at ../message.c:289 #3 0x080d8621 in ult_exception (sig=11, code=51, sc=0x0, addr=0x7b
) at ../mpcrt.c:124 #4 #5 0x0804cea5 in get_job_netset (job_gp= {gval = {gp = {pe = 1, addr = {laddr = 0x81edbc8, naddr = 136240072, b32s = {d1 = 136240072, d2 = 0}, b8s = {d1 = 200 '?', d2 = 219 '?', d3 = 30 '\036', d4 = 8 '\b', d5 = 0 '\0', d6 = 0 '\0', d7 = 0 '\0', d8 = 0 '\0'}}, size = 7308}}}, c=1762000896, netset_gp= {gval = {gp = {pe = 0, addr = {laddr = 0x81e4cf8, naddr = 136203512, b32s = {d1 = 136203512, d2 = 0}, b8s = {d1 = 248 '?', d2 = 76 'L', d3 = 30 '\036', d4 = 8 '\b', d5 = 0 '\0', d6 = 0 '\0', d7 = 0 '\0', d8 = 0 '\0'}}, size = 1}}}) at ../cluster.cc:959 #6 0x08089388 in _sinvoker3, int, GlobalPtr >::invoke () at mpcxx_mttl.h:1701 #7 0xb7b4bdc4 in ?? () #8 0x0804ce74 in reallocate_job () at ../cluster.cc:955 #9 0x080db6d6 in ult_get_messages () at ../recv.c:106 #10 0x080dbd6d in ult_dequeue () at ../ultlib.c:45 #11 0xb7bec488 in ?? () #12 0x00000024 in ?? () #13 0xb7b27dc4 in ?? () #14 0xb7b4bef8 in ?? () #15 0x0808904c in invoke, GlobalPtr > (retval=Cannot access memory at address 0xfffffbb0 ) at mpcxx_mttl.h:3829 /opt/score/deploy/score.gdb:1: Error in sourced command file: Previous frame inner to this frame (corrupt stack?) -------------------------------------- [10th Anniversary] special auction campaign now! http://pr.mail.yahoo.co.jp/auction/ From kameyama @ pccluster.org Thu Sep 21 12:02:09 2006 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Thu, 21 Sep 2006 12:02:09 +0900 Subject: [SCore-users-jp] SCRUN: Unauthorized connection In-Reply-To: <20060921021159.69239.qmail@web2201.mail.yahoo.co.jp> References: <20060921021159.69239.qmail@web2201.mail.yahoo.co.jp> Message-ID: <451200B1.9090402@pccluster.org> 亀山です. vqm_mp wrote: > http://www.pccluster.org/score/dist/score/html/ja/howtouse/security.html >> でセキュリティをたもつように設定しているわけですね? >> (Unauthorized connectio もここに書かれていますね.) > > プライベートなネットワークにてクラスター化を試みている > ので,当初はこの設定をしていませんでした.しかし, > Unauthorized connection のエラーが出てきたことから, > 試しに設定してみた次第です.それでも同じエラーメッセージ > Unauthorized connection が出力され、改善しなかったため, > MLに質問を投げさせていただきました. そのような前提が分からないと回答しにくいのですが... > これまでは,rpmでのインストールでしたが,ソースからの > インストールで再度挑戦しました.エラーメッセージが > 微妙に変わりましたので,ご報告いたします. 落ちている関数としては createSubjob() で呼んでいる前の関数のようですが... 試しに scored を static link で作り直してみてください. score6-src/SCore/scored/scored の Makefile の LDFLAGS = -Wl,-rpath,$(INSTALL_ROOT)/deploy/lib.$(host_nickname) の部分を LDFLAGS = -static に変更して, その directory で # ../../build/bin/smake distclean # ../../build/bin/smake # ../../build/bin/smake install を実行して, scored, scored_dev を install してください. そして, その scored を comp01, comp02 にもコピーしてください. # rsh-all -g comp01+comp02 -norsh rdist -c /opt/score/deploy @host: でコピーできると思います. Kameyama Toyohisa From vqm_mp @ yahoo.co.jp Thu Sep 21 22:24:52 2006 From: vqm_mp @ yahoo.co.jp (vqm_mp) Date: Thu, 21 Sep 2006 22:24:52 +0900 (JST) Subject: [SCore-users-jp] SCRUN: Unauthorized connection In-Reply-To: <451200B1.9090402@pccluster.org> Message-ID: <20060921132452.85733.qmail@web2205.mail.yahoo.co.jp> 鈴木です.いつもお世話になっております.ありがとう ございます. > 試しに scored を static link > で作り直してみてください. > score6-src/SCore/scored/scored > の Makefile の > LDFLAGS = > -Wl,-rpath,$(INSTALL_ROOT)/deploy/lib.$(host_nickname) > の部分を > LDFLAGS = -static > に変更して, その directory で > # ../../build/bin/smake distclean > # ../../build/bin/smake > # ../../build/bin/smake install > を実行して, scored, scored_dev を install > してください. # ../../build/bin/smake の部分で以下のようなエラーが発生しました. 最後の /usr/bin/ld: cannot find -lpm が原因ですが,pmライブラリとのリンクの方法を 教えて下さい. ***途中略 ***opt/score/deploy/scored\" -DULT_SCORED -DMPCXX_HETERO -DSCORED_CONTEXT_SAVE_AND_RESTORE -DSCORE_NOCHECK_HOSTSEQUIV -o pstat.o -c ../pstat.cc ../pstat.cc:29: 警告: 'rcsid' defined but not used /usr/bin/g++ -Wall -g -O3 -fno-strict-aliasing -DHOST_NICKNAME=\"i386-fedoracore3-linux2_6\" -D_GNU_SOURCE -D_LARGEFILE_SOURCE -D_LARGEFILE64_SOURCE -D_FILE_OFFSET_BITS=64 -I../../../scoredlib/include -I../../../pm2/include -I../../../mttl-ult/ult -I../../../scout/local -I/usr/include/nptl -DSCORE_VERSION=\"5.8.3\" -DINSTALL_BINDIR=\"/opt/score/deploy\" -DINSTALL_SCDEVDIR=\"/opt/score/deploy\" -DSCORED_DEFAULT_DEBUG=\"/opt/score/deploy/score.gdb\" -DSCORED_INSTALL_PATH=\"/opt/score/deploy/scored\" -DULT_SCORED -DMPCXX_HETERO -DSCORED_CONTEXT_SAVE_AND_RESTORE -DSCORE_NOCHECK_HOSTSEQUIV -o ddt.o -c ../ddt.cc /usr/bin/g++ -Wall -g -O3 -fno-strict-aliasing -DHOST_NICKNAME=\"i386-fedoracore3-linux2_6\" -D_GNU_SOURCE -D_LARGEFILE_SOURCE -D_LARGEFILE64_SOURCE -D_FILE_OFFSET_BITS=64 -I../../../scoredlib/include -I../../../pm2/include -I../../../mttl-ult/ult -I../../../scout/local -I/usr/include/nptl -DSCORE_VERSION=\"5.8.3\" -DINSTALL_BINDIR=\"/opt/score/deploy\" -DINSTALL_SCDEVDIR=\"/opt/score/deploy\" -DSCORED_DEFAULT_DEBUG=\"/opt/score/deploy/score.gdb\" -DSCORED_INSTALL_PATH=\"/opt/score/deploy/scored\" -DULT_SCORED -DMPCXX_HETERO -DSCORED_CONTEXT_SAVE_AND_RESTORE -DSCORE_NOCHECK_HOSTSEQUIV -static -o scored.exe cluster.o debugger.o device.o devserv.o idle.o init.o job.o login.o main.o monitor.o number.o pe.o pegroup.o rcp.o schedmon.o schedule.o scoredir.o shutdown.o stat.o syscall.o sysmon.o sysvshm.o timer.o tss.o wchan.o subjob.o fepio.o scorepm.o control.o exit.o devtab.o fep.o fork.o iosyscall.o hetero.o syslog.o barrier.o sigbcast.o ckpt.o mgrt.o patrol.o resource.o gclock.o sysmp.o console.o session.o sync.o parityio.o size.o usrcon.o user.o pstat.o ddt.o ../../../mttl-ult/ult/obj.i386-fedoracore3-linux2_6/libult_scored.a ../../../scoredlib/sys/obj.i386-fedoracore3-linux2_6/libscoresys.a ../../../scoredlib/common/obj.i386-fedoracore3-linux2_6/libscorecommon.a ../../../scboard/client/obj.i386-fedoracore3-linux2_6/libscboard.a ../../../scout/local/obj.i386-fedoracore3-linux2_6/scoutlib.o -lbfd -liberty -L../../../pm2/shared/obj.i386-fedoracore3-linux2_6/ -lpm -ldl /usr/bin/ld: cannot find -lpm collect2: ld はステータス 1 で終了しました make[1]: *** [scored.exe] エラー 1 make[1]: Leaving directory `/opt/score/score-src/SCore/scored/scored/obj.i386-fedoracore3-linux2_6' make: *** [srcdir-all] エラー 2 -------------------------------------- [10th Anniversary] special auction campaign now! http://pr.mail.yahoo.co.jp/auction/ From kameyama @ pccluster.org Fri Sep 22 08:57:57 2006 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Fri, 22 Sep 2006 08:57:57 +0900 Subject: [SCore-users-jp] SCRUN: Unauthorized connection In-Reply-To: <20060921132452.85733.qmail@web2205.mail.yahoo.co.jp> References: <20060921132452.85733.qmail@web2205.mail.yahoo.co.jp> Message-ID: <45132705.40102@pccluster.org> 亀山です. vqm_mp wrote: >> 試しに scored を static link >> で作り直してみてください. >> score6-src/SCore/scored/scored >> の Makefile の >> LDFLAGS = >> -Wl,-rpath,$(INSTALL_ROOT)/deploy/lib.$(host_nickname) >> の部分を >> LDFLAGS = -static >> に変更して, その directory で >> # ../../build/bin/smake distclean >> # ../../build/bin/smake >> # ../../build/bin/smake install >> を実行して, scored, scored_dev を install >> してください. > > # ../../build/bin/smake > の部分で以下のようなエラーが発生しました. > > 最後の > /usr/bin/ld: cannot find -lpm > が原因ですが,pmライブラリとのリンクの方法を > 教えて下さい. すみません. LDLIBS= $(DEPLIBS) -lbfd -liberty -L$(srcdir)../../pm2/shared/obj.$(host_nickname)/ -lpm -ldl の行を LDLIBS= $(DEPLIBS) -lbfd -liberty -L$(srcdir)../../pm2/lib/obj.$(host_nickname)/ -lpm -ldl に変更してください. Kameyama Toyohisa From vqm_mp @ yahoo.co.jp Fri Sep 22 10:48:49 2006 From: vqm_mp @ yahoo.co.jp (vqm_mp) Date: Fri, 22 Sep 2006 10:48:49 +0900 (JST) Subject: [SCore-users-jp] SCRUN: Unauthorized connection In-Reply-To: <45132705.40102@pccluster.org> Message-ID: <20060922014849.29887.qmail@web2208.mail.yahoo.co.jp> 鈴木です. 早速,再コンパイルしてhello.ccを走らせました. Single-User,Multi-User環境ともに,今まで正常に動いていた -nodes=1, -nodes=1x2が,だいたい10回に1回の割合で正常に 動き,残り10回に9回の割合で以下のエラーを起こすように なりました. [root @ server test]# scrun -nodes=1 ./a.out SCore-D 5.8.3 connected. <0> SCore-D:ERROR Unable to recover checkpoint file (single host). <0> SCORE-D:ERROR Killing user process due to the error. SCORE: Program killed by user. Multi-User環境において,-nodes=2x2でhello.ccを実行した 結果は,Thu, 21 Sep 2006 11:11:59のMLと変わらないエラー です. [root @ server test]# scrun -scored=comp002,nodes=2x2 ./a.out SCore-D 5.8.3 connected (jid=1,reconnect=33053). SCRUN: Unauthorized connection (INET). [root @ server test]# scored_dev SYSLOG: /opt/score/deploy/scored_dev SYSLOG: SCore-D 5.8.3 $Id: init.cc,v 1.74 2005/02/24 07:47:54 hori Exp $ SYSLOG: Compile option(s): DEVELOPMENT ULT_DO_TRACE SCORE_DO_TRACE SYSLOG: SCore-D network: ethernet/ethernet SYSLOG: Cluster[0]: (0..1)x2.i386-fedoracore3-linux2_6.penD.2800 SYSLOG: Memory: 4055[MB], Swap: 1984[MB], Disk: 148135[MB] SYSLOG: Network[0]: ethernet/ethernet SYSLOG: Scheduler initiated: Timeslice = 200 [msec] SYSLOG: Queue[0] activated, exclusive scheduling SYSLOG: Queue[1] activated, time-sharing scheduling SYSLOG: Queue[2] activated, time-sharing scheduling SYSLOG: Session ID: 0 SYSLOG: Server Host: comp002.pccluster.org SYSLOG: Backup Host: comp001.pccluster.org @ 0 SYSLOG: Operated by: root SYSLOG: Recovery canceled by SCore-D: root @ root@server.pccluster.org:33037, JID: 1 SYSLOG: --------- SCore-D (5.8.3) bootup -------- SYSLOG: Login request: root @ server.pccluster.org:33053 SYSLOG: Login accepted: root @ server.pccluster.org:33053, JID: 1, Hosts: 4(2x2)@0, Priority: 1, Command: ./a.out <1> ULT: Exception Signal (11) <1> Attaching GDB: Exception signal Using host libthread_db library "/lib/tls/libthread_db.so.1". `shared object read from target memory' has disappeared; keeping its symbols. `shared object read from target memory' has disappeared; keeping its symbols. `shared object read from target memory' has disappeared; keeping its symbols. 0x0819cddd in wait () #0 0x0819cddd in wait () #1 0x080db5f8 in score_attach_debugger ( message=0x44e2
, exno=11) at ../message.c:289 #2 0x080d58c1 in ult_exception (sig=11, code=51, sc=0x0, addr=0x7b
) at ../mpcrt.c:124 #3 #4 0x0804a145 in get_job_netset (job_gp= {gval = {gp = {pe = 1, addr = {laddr = 0x8602010, naddr = 140517392, b32s = {d1 = 140517392, d2 = 0}, b8s = {d1 = 16 '\020', d2 = 32 ' ', d3 = 96 '`', d4 = 8 '\b', d5 = 0 '\0', d6 = 0 '\0', d7 = 0 '\0', d8 = 0 '\0'}}, size = 7308}}}, c=1762000896, netset_gp= {gval = {gp = {pe = 0, addr = {laddr = 0x85fcb40, naddr = 140495680, b32s = {d1 = 140495680, d2 = 0}, b8s = {d1 = 64 '@', d2 = 203 '?', d3 = 95 '_', d4 = 8 '\b', d5 = 0 '\0', d6 = 0 '\0', d7 = 0 '\0', d8 = 0 '\0'}}, size = 1}}}) at ../cluster.cc:959 #5 0x08086628 in _sinvoker3, int, GlobalPtr >::invoke () at mpcxx_mttl.h:1701 #6 0xb7df5dc4 in ?? () #7 0x0804a114 in reallocate_job () at ../cluster.cc:955 #8 0x080d8976 in ult_get_messages () at ../recv.c:106 #9 0x080d900d in ult_dequeue () at ../ultlib.c:45 #10 0xb7e96488 in ?? () #11 0x00000024 in ?? () #12 0xb7dd1dc4 in ?? () #13 0xb7df5ef8 in ?? () #14 0x080862ec in invoke, GlobalPtr > (retval=Cannot access memory at address 0xfffffbb0 ) at mpcxx_mttl.h:3829 /opt/score/deploy/score.gdb:1: Error in sourced command file: Previous frame inner to this frame (corrupt stack?) -------------------------------------- [10th Anniversary] special auction campaign now! http://pr.mail.yahoo.co.jp/auction/