From kameyama @ pccluster.org Mon Feb 1 10:17:09 2010 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Mon, 01 Feb 2010 10:17:09 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?UG9pbnQtdG8tUG9pbnQgGyRCJUYbKEI=?= =?iso-2022-jp?b?GyRCJTklSCQsPDpHVBsoQg==?= In-Reply-To: References: <4B6129C8.6040404@pccluster.org> Message-ID: <4B662B95.2060905@pccluster.org> 亀山です. (2010年01月30日 13:47), i05166 @ sr.kagawa-nct.ac.jp Wrote: >> 5. sis900.c の #include が終わったあたりに >> #include "pm_ethernet_client.h" >> を挿入し, DRV_MODULE_NAME を sis900_scorepm1 に置き換える (中略) > In file included from > /home/server/score.temp/score6-src/SCore/pm-v2/arch/ethernet/driver/sis900_scorepm/linux2_6/obj.i386-centos4-linux2_6 @ 2.6.9-42.ELsmp/sis900.c:74: > /home/server/score.temp/score6-src/SCore/pm-v2/arch/ethernet/driver/sis900_scorepm/linux2_6/obj.i386-centos4-linux2_6 @ 2.6.9-42.ELsmp/../../../../include/pm_ethernet_client.h: > In function `__pm_ethernet_vlan_hwaccel_rx': > /home/server/score.temp/score6-src/SCore/pm-v2/arch/ethernet/driver/sis900_s > corepm/linux2_6/obj.i386-centos4-linux2_6 @ 2.6.9-42.ELsmp/../../../../include > /pm_ethernet_client.h:47: error: 不完全型のポインタへの間接参照 > /home/server/score.temp/score6-src/SCore/pm-v2/arch/ethernet/driver/sis900_s > corepm/linux2_6/obj.i386-centos4-linux2_6 @ 2.6.9-42.ELsmp/../../../../include > /pm_ethernet_client.h:47: error: `VLAN_VID_MASK' が宣言されていません (この > 関数内で最初に利用) >> #include "pm_ethernet_client.h" の前に #include を入れてみてください. Kameyama Toyohisa From i05166 @ sr.kagawa-nct.ac.jp Tue Feb 2 14:50:49 2010 From: i05166 @ sr.kagawa-nct.ac.jp (=?iso-2022-jp?b?aTA1MTY2IBskQiF3GyhCIHNyLmthZ2F3YS1uY3QuYWMuanA=?=) Date: Tue, 2 Feb 2010 14:50:49 +0900 (JST) Subject: [SCore-users-jp] =?iso-2022-jp?b?UG9pbnQtdG8tUG9pbnQgGyRCJUYbKEI=?= =?iso-2022-jp?b?GyRCJTklSCQsPDpHVBsoQg==?= In-Reply-To: <4B662B95.2060905@pccluster.org> References: <4B6129C8.6040404@pccluster.org> <4B662B95.2060905@pccluster.org> Message-ID: <99ad0163815ba267ae434a637828f217.squirrel@webmail.sr1.takuma-ct.ac.jp> 香川高専詫間キャンパスの柳本です。 亀山様、ありがとうございます。 > >>> #include "pm_ethernet_client.h" > の前に > #include > を入れてみてください. > > Kameyama Toyohisa > 追加したところいくつか警告はでたもののインストールまで無事に終わり、Point-to -Pointテストは 8 6.09337e-05 となり成功しました。 しかし、その後総合テストのscstestを行ったところ以下のようなエラーが出て先に 進まなくなりました。この時計算ホストはフリーズしてしまい、キー入力やマウス操 作もきかなくなっていました。 [root @ server etc]# scout -g pcc SCOUT: Spawning done. SCOUT: session started. [root @ server etc]# scstest -network ethernet -config:file=/opt/score/etc/pm-ethernet.conf type=ethernet SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16) {0} 0 send=0 recv = 0 {0} 1 send=137 recv = 0 {0} 2 send=115 recv = 0 comp1( 0) burst: pmGetSendBuffer: Connection timed out(110) 過去のログを参考にpm-ethernet.confのmaxsend,backoffも変えて試してみたのです が結果は変わりませんでした。 お忙しいところ恐縮ですが、よろしくお願いします。 From i05166 @ sr.kagawa-nct.ac.jp Thu Feb 4 15:33:33 2010 From: i05166 @ sr.kagawa-nct.ac.jp (=?iso-2022-jp?b?aTA1MTY2IBskQiF3GyhCIHNyLmthZ2F3YS1uY3QuYWMuanA=?=) Date: Thu, 4 Feb 2010 15:33:33 +0900 (JST) Subject: [SCore-users-jp] =?iso-2022-jp?b?c2NzdGVzdCAbJEI8OkdUGyhC?= Message-ID: <1805c3896e7e5ae10acc18cb51d9ef2c.squirrel@webmail.sr1.takuma-ct.ac.jp> 香川高専詫間キャンパスの柳本です。 Point-to-Pointテストの成功を確認した後、総合テストのscstestを行ったのですが 以下のような症状がでて先に進むことができません。 [root @ server ~]# scstest -network ethernet -config:file=/opt/score/etc/pm-ethernet.conf type=ethernet SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16) {0} 0 send=0 recv = 0 {0} 1 send=252 recv = 0 comp1( 0) burst: pmGetSendBuffer: Connection timed out(110) この時、msgbコマンドで表示したウィンドウはグループすべて赤表示のままです。ま た、comp2はフリーズしてしまいます。 同様にSCore-Dテストにて # scrun -nodes=2 ./hello も上記と同じ結果となりました。ノード数を1に変更実行しても結果は同じでした。 ただ、サーバホスト1台、計算ホスト1台の構成にするとscrun -nodes=1 ./helloは正 常に動作しました。 SCore-Dになにか問題があると思うのですが、どのようにしたらこの症状は解消でき るでしょうか。 お忙しいところ恐縮ですが、よろしくお願いします。 [構成] サーバホスト1台、計算ホスト2台 server 150.15.99.140 comp1 150.15.99.141 comp2 150.15.99.142 [仕様] OS Centos 4.4 CPU Celeron 2.5GHz Memory 512MB Mother ASUS P4S533-MX LAN onboard(SIS900 FastEthernet) From kameyama @ pccluster.org Thu Feb 4 16:15:43 2010 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Thu, 04 Feb 2010 16:15:43 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?c2NzdGVzdCAbJEI8OkdUGyhC?= In-Reply-To: <1805c3896e7e5ae10acc18cb51d9ef2c.squirrel@webmail.sr1.takuma-ct.ac.jp> References: <1805c3896e7e5ae10acc18cb51d9ef2c.squirrel@webmail.sr1.takuma-ct.ac.jp> Message-ID: <4B6A741F.8010208@pccluster.org> 亀山です. (2010年02月04日 15:33), i05166 @ sr.kagawa-nct.ac.jp Wrote: > Point-to-Pointテストの成功を確認した後、総合テストのscstestを行ったのですが > 以下のような症状がでて先に進むことができません。 > > [root @ server ~]# scstest -network ethernet > -config:file=/opt/score/etc/pm-ethernet.conf > type=ethernet > SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16) > {0} 0 send=0 recv = 0 > {0} 1 send=252 recv = 0 > comp1( 0) burst: pmGetSendBuffer: Connection timed out(110) PM/Ethernet が悪いと思います. 多分, sis900 の割り込み回りだとは思いますが... > この時、msgbコマンドで表示したウィンドウはグループすべて赤表示のままです。ま > た、comp2はフリーズしてしまいます。 comp2 の /var/log/messages には何か残っていないでしょうか? > 同様にSCore-Dテストにて > # scrun -nodes=2 ./hello > も上記と同じ結果となりました。ノード数を1に変更実行しても結果は同じでした。 scout で 2 台以上確保している場合は nodes=1 でも, SCore-D が PM で通信を行うので, PM/Ethernet が悪ければおかしくなります. どうも CPU が single core のようなので, もしかしたら single CPU 用の kernel を使用すると変わるかもしれません. Kameyama Toyohisa From i05166 @ sr.kagawa-nct.ac.jp Tue Feb 9 17:55:24 2010 From: i05166 @ sr.kagawa-nct.ac.jp (=?iso-2022-jp?b?aTA1MTY2IBskQiF3GyhCIHNyLmthZ2F3YS1uY3QuYWMuanA=?=) Date: Tue, 9 Feb 2010 17:55:24 +0900 (JST) Subject: [SCore-users-jp] =?iso-2022-jp?b?c2NzdGVzdCAbJEI8OkdUGyhC?= In-Reply-To: <4B6A741F.8010208@pccluster.org> References: <1805c3896e7e5ae10acc18cb51d9ef2c.squirrel@webmail.sr1.takuma-ct.ac.jp> <4B6A741F.8010208@pccluster.org> Message-ID: 香川高専詫間キャンパスの柳本です。 亀山様、返信が遅れてしまい、大変申し訳ありませんでした。 計算ホストの再インストールとドライバの作成を何度か行ったのですが、結果は変わ りませんでした。 > > comp2 の /var/log/messages には何か残っていないでしょうか? > scstestを実行しフリーズした時間の前後のログを抜粋して以下に記載します。 Feb 9 16:20:37 comp2 gdm(pam_unix)[21395]: session opened for user comp1 by (uid=0) Feb 9 16:20:37 comp2 gconfd (comp0-21697): eμ・a<8b><95>a,- (a<83><90>a<8 3>?a<82>,a<83>§a<83>3 2.8.1), PID 21697 a<83>|a<83>?a<82>¶ 'comp0' Feb 9 16:20:37 comp2 gconfd (comp0-21697): ea-a<81>?e??a<81>?a°<82>c<94>¨ a<81>Re¨-aR<9a>a<82>?a<83>?a<82>1a<81>≪a ̄?a<81><99>a<82><8b>a<82>¢a<83>< 89> a<82>1 "xml:readonly:/etc/gconf/gconf.xml.mandatory" (0 e!<8c>c<9b>R) a<82>< 92>e§£a±oa<81><97>a<81>?a<81><97>a<81><9f> Feb 9 16:20:37 comp2 gconfd (comp0-21697): a<9b>,a<81><8d>e??a<81>?a<8f> ̄ e<83>?a<81>ae¨-aR<9a>a<82>?a<83>?a<82>1a<81>≪a ̄?a<81><99>a<82><8b>a<82>¢ a<8 a<83>¬a<82>1 "xml:readwrite:/home/comp0/.gconf" (1 e!<8c>c<9b>R) a<82><92>e §£a±oa<81><97>a<81>?a<81><97>a<81><9f> Feb 9 16:20:37 comp2 gconfd (comp0-21697): ea-a<81>?e??a<81>?a°<82>c<94>¨ a<81>Re¨-aR<9a>a<82>?a<83>?a<82>1a<81>≪a ̄?a<81><99>a<82><8b>a<82>¢a<83>< 89> a<82>1 "xml:readonly:/etc/gconf/gconf.xml.defaults" (2 e!<8c>c<9b>R) a<82><9 2>e§£a±oa<81><97>a<81>?a<81><97>a<81><9f> Feb 9 16:20:39 comp2 htt_server[3421]: Client shut down the connection owned by im_id(1). Feb 9 16:20:41 comp2 kernel: usb 3-3.4: USB disconnect, address 4 Feb 9 16:20:54 comp2 gconfd (comp0-21697): a<9b>,a<81><8d>e??a<81>?a<8f> ̄ e<83>?a<81>ae¨-aR<9a>a<82>?a<83>?a<82>1a<81>≪a ̄?a<81><99>a<82><8b>a<82>¢ a<8 a<83>¬a<82>1 "xml:readwrite:/home/comp0/.gconf" (0 e!<8c>c<9b>R) a<82><92>e §£a±oa<81><97>a<81>?a<81><97>a<81><9f> Feb 9 16:32:01 comp2 syslogd 1.4.1: restart. Feb 9 16:32:01 comp2 syslog: syslogd eμ・a<8b><95> succeeded Feb 9 16:32:01 comp2 kernel: klogd 1.4.1, log source = /proc/kmsg started. Feb 9 16:32:01 comp2 kernel: Linux version 2.6.9-42.EL (buildcentos @ build-i386) (gcc version 3.4.6 20060404 (Red Hat 3.4.6-3)) #1 Sat Aug 12 09:17:58 CDT 2006 > どうも CPU が single core のようなので, もしかしたら single CPU 用の > kernel を使用すると変わるかもしれません. SCore 6.0 DVDからCentOSをインストールした時点で2.6.9-42.ELしか選べなかったの で、これがsingleCPU用のkernelだと思っていました。 これを変更するには再インストールを行う必要があるのでしょうか。 sis900のNICを使うのは諦め、新しいNICを追加したほうがいいのでしょうか? お忙しいところ恐縮ですが、よろしくお願いします。 From kameyama @ pccluster.org Tue Feb 9 18:10:36 2010 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Tue, 09 Feb 2010 18:10:36 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?c2NzdGVzdCAbJEI8OkdUGyhC?= In-Reply-To: References: <1805c3896e7e5ae10acc18cb51d9ef2c.squirrel@webmail.sr1.takuma-ct.ac.jp> <4B6A741F.8010208@pccluster.org> Message-ID: <4B71268C.60606@pccluster.org> 亀山です. (2010年02月09日 17:55), i05166 @ sr.kagawa-nct.ac.jp Wrote: >> comp2 の /var/log/messages には何か残っていないでしょうか? >> > > scstestを実行しフリーズした時間の前後のログを抜粋して以下に記載します。 それらしいものはなさそうですね. >> どうも CPU が single core のようなので, もしかしたら single CPU 用の >> kernel を使用すると変わるかもしれません. > > SCore 6.0 DVDからCentOSをインストールした時点で2.6.9-42.ELしか選べなかったの > で、これがsingleCPU用のkernelだと思っていました。 これはそうなのですが, 1/30 の mail では 2.6.9-42.ELsmp で コンパイルしていましたので... > sis900のNICを使うのは諦め、新しいNICを追加したほうがいいのでしょうか? 多分, そのほうが良いかと... Kameyama Toyohisa From ri002040 @ ed.ritsumei.ac.jp Mon Feb 15 18:01:02 2010 From: ri002040 @ ed.ritsumei.ac.jp (OYAMA YOSHINOBU) Date: Mon, 15 Feb 2010 18:01:02 +0900 (JST) Subject: [SCore-users-jp] =?iso-2022-jp?b?GyRCJWElYiVqJE4zTkpdJEgyckp8GyhC?= =?iso-2022-jp?b?GyRCJEskRCQkJEYbKEI=?= Message-ID: <1266224462.14443.ri002040@ed.ritsumei.ac.jp> 立命館大学の大山佳宣と申します。 環境は SCore6.0.2 Computer Hostは2台、Server Host1台で構成しています。 それぞれのHostはGigabit Ethernetにより接続しています。 Server HostはPentium4 3GHz、メモリは2GBのSDRAM Computer Hostはそれぞれ、Quad Xeon 3GHzを2つ、メモリは8GBのSDRAMです。 画像処理をOpenMPを用いて並列化しています。メモリの確保はmalloc(),解放はfree()関数で記述しているのですが、実行すると以下のようなエラーが表示されます。 ================================================================ # scrun -nodes=4 ./main SCore-D 6.0.2 connected. <0:0> SCORE: 4 nodes (1x4) ready. <0> VM Fault out of DSM area PC=[0077f600]:ADDR=[00000000] ================================================================ Score上ではmalloc(),free()関数が使用できないのでしょうか? 回答宜しくお願いします。 From kameyama @ pccluster.org Mon Feb 15 18:16:56 2010 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Mon, 15 Feb 2010 18:16:56 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?GyRCJWElYiVqJE4zTkpdJEgyckp8GyhC?= =?iso-2022-jp?b?GyRCJEskRCQkJEYbKEI=?= In-Reply-To: <1266224462.14443.ri002040@ed.ritsumei.ac.jp> References: <1266224462.14443.ri002040@ed.ritsumei.ac.jp> Message-ID: <4B791108.1010103@pccluster.org> 亀山です. (2010年02月15日 18:01), OYAMA YOSHINOBU Wrote: > 画像処理をOpenMPを用いて並列化しています。メモリの確保はmalloc(),解放はfree()関数で記述しているのですが、実行すると以下のようなエラーが表示されます。 > ================================================================ > # scrun -nodes=4 ./main > SCore-D 6.0.2 connected. > <0:0> SCORE: 4 nodes (1x4) ready. > <0> VM Fault out of DSM area PC=[0077f600]:ADDR=[00000000] > ================================================================ > Score上ではmalloc(),free()関数が使用できないのでしょうか? > 回答宜しくお願いします。 Omni/SCash を使用する場合は malloc() の代わりに ompsm_galloc() を使用してください. http://www.pccluster.org/pipermail/score-users-jp/2003-January/001177.html Kameyama Toyohisa From ri002040 @ ed.ritsumei.ac.jp Mon Feb 15 19:07:26 2010 From: ri002040 @ ed.ritsumei.ac.jp (OYAMA YOSHINOBU) Date: Mon, 15 Feb 2010 19:07:26 +0900 (JST) Subject: [SCore-users-jp] =?iso-2022-jp?b?GyRCJWElYiVqJE4zTkpdJEgyckp8GyhC?= =?iso-2022-jp?b?GyRCJEskRCQkJEYbKEI=?= In-Reply-To: <4B791108.1010103@pccluster.org> References: <1266224462.14443.ri002040@ed.ritsumei.ac.jp> <4B791108.1010103@pccluster.org> Message-ID: <1266228446.15334.ri002040@ed.ritsumei.ac.jp> 立命館大学の大山佳宣です。 回答ありがとうございます。 >Omni/SCash を使用する場合は malloc() の代わりにompsm_galloc() を使用してください. リンクにある過去の質問を見てmalloc()をompsm_galloc()に書き換えて実行を行ったのですが、同じエラーが表示されます。 malloc()とompsm_galloc() は記述の方法が異なるのでしょうか? ============================================================= SCore-D 6.0.2 connected. <0:0> SCORE: 4 nodes (1x4) ready. <0> VM Fault out of DSM area PC=[0077f600]:ADDR=[00000000] ============================================================= 上記のエラーはメモリの確保ができていないということでいいのでしょうか? 宜しくお願いします。 From kameyama @ pccluster.org Tue Feb 16 09:27:24 2010 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Tue, 16 Feb 2010 09:27:24 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?GyRCJWElYiVqJE4zTkpdJEgyckp8GyhC?= =?iso-2022-jp?b?GyRCJEskRCQkJEYbKEI=?= In-Reply-To: <1266228446.15334.ri002040@ed.ritsumei.ac.jp> References: <1266224462.14443.ri002040@ed.ritsumei.ac.jp> <4B791108.1010103@pccluster.org> <1266228446.15334.ri002040@ed.ritsumei.ac.jp> Message-ID: <4B79E66C.2060203@pccluster.org> 亀山です. (2010年02月15日 19:07), OYAMA YOSHINOBU Wrote: > リンクにある過去の質問を見てmalloc()をompsm_galloc()に書き換えて実行を行ったのですが、同じエラーが表示されます。 > malloc()とompsm_galloc() は記述の方法が異なるのでしょうか? 異なります. /opt/omni/doc/omni-scash-extension.html に説明があると思いますが... ompsm_galloc() で検索したら http://www.hpc.se.ritsumei.ac.jp/papers/b03/miyagi.pdf というのを見つけました. ompsm_galloc() を使用して malloc(), free() に相当する関数を 作成したそうです. Kameyama Toyohisa