From shimada @ kanto-gakuin.ac.jp Fri Feb 13 14:16:50 2009 From: shimada @ kanto-gakuin.ac.jp (Kazuhiro Shimada) Date: Fri, 13 Feb 2009 14:16:50 +0900 Subject: [SCore-users-jp] No PMX network is specified In-Reply-To: <4980FBF7.1050905@pccluster.org> References: <453625340901280531o62dc7adfs17c32eb9e3680eff@mail.gmail.com> <4980FBF7.1050905@pccluster.org> Message-ID: <001f01c98d9a$466601a0$d33204e0$@ac.jp> 関東学院大学の島田と申します。 Score7Beta1をRPMからインストールして、hello.cをコンパイルして実行したとこ ろ、以下のようなエラーが出たのですが、どのように対処すればよろしいでしょう か。 [root @ s104-010 ~]# scrun -group=machinefile ./a.out SCORED.EXE @ s104-010#8304:ERROR: open_pmx_context() at mpcrt.c:168: No PMX network is specified. SCORED.EXE @ s104-012#8115:ERROR: open_pmx_context() at mpcrt.c:168: No PMX network is specified. SCOUT(s104-010): Process 8304 exited with non-zero status (9). よろしくお願い致します。 謹言 ------------------------------------------------- 関東学院大学工学部電気電子情報工学科 島田和宏 Tel&Fax 045-786-7127 http://home.kanto-gakuin.ac.jp/~shimada ------------------------------------------------- From kameyama @ pccluster.org Fri Feb 13 22:50:48 2009 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Fri, 13 Feb 2009 22:50:48 +0900 (JST) Subject: [SCore-users-jp] No PMX network is specified In-Reply-To: <001f01c98d9a$466601a0$d33204e0$@ac.jp> References: <453625340901280531o62dc7adfs17c32eb9e3680eff@mail.gmail.com><4980FBF7.1050905@pccluster.org> <001f01c98d9a$466601a0$d33204e0$@ac.jp> Message-ID: <2180.218.41.131.88.1234533048.risu@postman.riken.jp> 亀山です. On 2009年 2月 13日 (金) 2:16 pm, Kazuhiro Shimada said: > Score7Beta1をRPMからインストールして、hello.cをコンパイルして実行したとこ > ろ、以下のようなエラーが出たのですが、どのように対処すればよろしいでしょう > か。 > > [root @ s104-010 ~]# scrun -group=machinefile ./a.out > SCORED.EXE @ s104-010#8304:ERROR: open_pmx_context() at mpcrt.c:168: No PMX > network is specified. > SCORED.EXE @ s104-012#8115:ERROR: open_pmx_context() at mpcrt.c:168: No PMX > network is specified. scorehosts.db を作成/指定しない場合は network を指定してください. % scrun -group=machinefile,network=ethernet ./a.out Kameyama Toyohisa From kameyama @ pccluster.org Tue Feb 17 13:32:31 2009 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Tue, 17 Feb 2009 13:32:31 +0900 Subject: =?ISO-2022-JP?B?GyRCIVo6RkF3IVsbKEJSRTogW1NDb3JlLXVzZXJzLWpw?= =?ISO-2022-JP?B?XSBObyBQTVggbmV0d29yayBpcyBzcGVjaWZpZWQ=?= In-Reply-To: <001a01c990b2$93803080$ba809180$@ac.jp> References: <453625340901280531o62dc7adfs17c32eb9e3680eff@mail.gmail.com><4980FBF7.1050905@pccluster.org> <001f01c98d9a$466601a0$d33204e0$@ac.jp> <2180.218.41.131.88.1234533048.risu@postman.riken.jp> <001a01c990b2$93803080$ba809180$@ac.jp> Message-ID: <499A3DDF.4010202@pccluster.org> 亀山です. Kazuhiro Shimada Wrote: > ありがとうございます。関東学院の島田です。 > > 1回返信をMLに送ったのですが、MLからメールが来ないので、亀山様に再送致しま > す。 こちらには 2/13 14:16 のものしか届いていないようです. > scorehosts.db は作成してあるのですが…。 環境変数 SCBDSERV を設定していないと見にいかないかもしれません. > Networkを指定しますと、以下のようになります。 > > [root @ s104-010 ~]# scrun -group=machinefile,network=ethernet ./a.out > SCORED.EXE @ s104-012#7404:ERROR: open_pmx_context() at mpcrt.c:193: > pmxAddMember(ethernet): Link has been severed > SCORED.EXE @ s104-010#8821:ERROR: open_pmx_context() at mpcrt.c:193: > pmxAddMember(ethernet): Link has been severed > SCOUT(s104-010): Process 8821 exited with non-zero status (9). > SCOUT(s104-012): Process 7404 exited with non-zero status (9). このとき, eth0 を使用しようとしますが, eth0 は up されていますでしょうか? scorehosts.db を見に行っているのでしたら, そこで指定した device になりますけど... > マシン起動時に、以下のようなメッセージが表示されますが、これと関係ありますで > しょうか。 > > expr: syntax error > Starting compute host lock service: msgbserv:Unable to get host information > as msgbserver 多分, msgbserv が起動されていないだけだと思います. とりあえず, 今回の問題とは独立していると思います. > NICはIntelのe1000eです。ちなみにbnx2を使ってプログラムを実行すると、コン > ピュートホストが勝手に再起動します…。 network を etherhxb にするとどうなるでしょうか? Kameyama Toyohisa From shimada @ kanto-gakuin.ac.jp Tue Feb 17 15:42:34 2009 From: shimada @ kanto-gakuin.ac.jp (Kazuhiro Shimada) Date: Tue, 17 Feb 2009 15:42:34 +0900 Subject: =?iso-2022-jp?B?UkU6IBskQiFaOkZBdyFbGyhCUkU6IFtTQ29yZS11c2Vycy1qcF0=?= =?iso-2022-jp?B?IE5vIFBNWCBuZXR3b3JrIGlzIHNwZWNpZmllZA==?= In-Reply-To: <499A3DDF.4010202@pccluster.org> References: <453625340901280531o62dc7adfs17c32eb9e3680eff@mail.gmail.com><4980FBF7.1050905@pccluster.org> <001f01c98d9a$466601a0$d33204e0$@ac.jp> <2180.218.41.131.88.1234533048.risu@postman.riken.jp> <001a01c990b2$93803080$ba809180$@ac.jp> <499A3DDF.4010202@pccluster.org> Message-ID: <004701c990ca$ea3c1750$beb445f0$@ac.jp> 関東学院の島田です。 亀山様ありがとうござます。 > > scorehosts.db は作成してあるのですが…。 > > 環境変数 SCBDSERV を設定していないと見にいかないかもしれません. Scoreboardが起動していなかったようです。マシン起動時には起動するように設定し てあるのですが、どこかで切れてしまうようです。 あと、下記のようにプログラムの実行に失敗すると切れるようです。 > > Networkを指定しますと、以下のようになります。 > > > > [root @ s104-010 ~]# scrun -group=machinefile,network=ethernet ./a.out > > SCORED.EXE @ s104-012#7404:ERROR: open_pmx_context() at mpcrt.c:193: > > pmxAddMember(ethernet): Link has been severed > > SCORED.EXE @ s104-010#8821:ERROR: open_pmx_context() at mpcrt.c:193: > > pmxAddMember(ethernet): Link has been severed > > SCOUT(s104-010): Process 8821 exited with non-zero status (9). > > SCOUT(s104-012): Process 7404 exited with non-zero status (9). > > このとき, eth0 を使用しようとしますが, eth0 は up されていますでしょう > か? > scorehosts.db を見に行っているのでしたら, そこで指定した > device になりますけど... Eth2を使用してます。Eth2を指定するには、scorehosts.dbに具体的にどのように書 けばよろしいでしょうか。 > > NICはIntelのe1000eです。ちなみにbnx2を使ってプログラムを実行すると、 > コン > > ピュートホストが勝手に再起動します…。 > > network を etherhxb にするとどうなるでしょうか? 以下のようになります。 [root @ s104-010 ~]# scrun -group=machinefile,network=etherhxb ./a.out SCBDSERV: accept() failed. SCore (7.0.0) Connected SCORE{1} 16 nodes (2x8) ready. [1] MTMI: fatal error (0x1): score_attach_network() failed: 22 <0> SCORE: Program signaled (Aborted). NISの設定は必要でしょうか。 よろしくお願い致します。 From kameyama @ pccluster.org Tue Feb 17 16:04:14 2009 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Tue, 17 Feb 2009 16:04:14 +0900 Subject: =?ISO-2022-JP?B?GyRCIVo6RkF3IVsbKEJSRTogW1NDb3JlLXVzZXJzLWpw?= =?ISO-2022-JP?B?XSBObyBQTVggbmV0d29yayBpcyBzcGVjaWZpZWQ=?= In-Reply-To: <004701c990ca$ea3c1750$beb445f0$@ac.jp> References: <453625340901280531o62dc7adfs17c32eb9e3680eff@mail.gmail.com><4980FBF7.1050905@pccluster.org> <001f01c98d9a$466601a0$d33204e0$@ac.jp> <2180.218.41.131.88.1234533048.risu@postman.riken.jp> <001a01c990b2$93803080$ba809180$@ac.jp> <499A3DDF.4010202@pccluster.org> <004701c990ca$ea3c1750$beb445f0$@ac.jp> Message-ID: <499A616E.8040604@pccluster.org> 亀山です. Kazuhiro Shimada Wrote: >>> scorehosts.db は作成してあるのですが…。 >> 環境変数 SCBDSERV を設定していないと見にいかないかもしれません. > > Scoreboardが起動していなかったようです。マシン起動時には起動するように設定し > てあるのですが、どこかで切れてしまうようです。 > あと、下記のようにプログラムの実行に失敗すると切れるようです。 SCBDSERV にファイル名を書けばファイルを直接見ます. >>> Networkを指定しますと、以下のようになります。 >>> >>> [root @ s104-010 ~]# scrun -group=machinefile,network=ethernet ./a.out >>> SCORED.EXE @ s104-012#7404:ERROR: open_pmx_context() at mpcrt.c:193: >>> pmxAddMember(ethernet): Link has been severed >>> SCORED.EXE @ s104-010#8821:ERROR: open_pmx_context() at mpcrt.c:193: >>> pmxAddMember(ethernet): Link has been severed >>> SCOUT(s104-010): Process 8821 exited with non-zero status (9). >>> SCOUT(s104-012): Process 7404 exited with non-zero status (9). >> このとき, eth0 を使用しようとしますが, eth0 は up されていますでしょう >> か? >> scorehosts.db を見に行っているのでしたら, そこで指定した >> device になりますけど... > > Eth2を使用してます。Eth2を指定するには、scorehosts.dbに具体的にどのように書 > けばよろしいでしょうか。 ethernet -type=ethernet channel=0 netdev=eth2 として host レコードに comp0 ... network=ethernet を指定してください. scorehosts.db を使用しない場合は scrun -group=machinefile,network=ethernet:eth2 ./a.out と指定してください. >>> NICはIntelのe1000eです。ちなみにbnx2を使ってプログラムを実行すると、 >> コン >>> ピュートホストが勝手に再起動します…。 >> network を etherhxb にするとどうなるでしょうか? > > 以下のようになります。 > > [root @ s104-010 ~]# scrun -group=machinefile,network=etherhxb ./a.out > SCBDSERV: accept() failed. scoreboard との接続には失敗していますが, > SCore (7.0.0) Connected > SCORE{1} 16 nodes (2x8) ready. SCore-D は etherhxb で立ち上がっています. > [1] MTMI: fatal error (0x1): score_attach_network() > failed: 22 ところが, MPI を動かそうとしたところで失敗していますね... 多分, scoreboard が動いていなかったためだと思います. SCBDSERV を設定しないか, ファイル名を指定してみてください. > NISの設定は必要でしょうか。 特に必要は無いと思います. Kameyama Toyohisa From shimada @ kanto-gakuin.ac.jp Tue Feb 17 18:54:53 2009 From: shimada @ kanto-gakuin.ac.jp (Kazuhiro Shimada) Date: Tue, 17 Feb 2009 18:54:53 +0900 Subject: =?iso-2022-jp?B?UkU6IBskQiFaOkZBdyFbGyhCUkU6IFtTQ29yZS11c2Vycy1qcF0=?= =?iso-2022-jp?B?IE5vIFBNWCBuZXR3b3JrIGlzIHNwZWNpZmllZA==?= In-Reply-To: <499A616E.8040604@pccluster.org> References: <453625340901280531o62dc7adfs17c32eb9e3680eff@mail.gmail.com><4980FBF7.1050905@pccluster.org> <001f01c98d9a$466601a0$d33204e0$@ac.jp> <2180.218.41.131.88.1234533048.risu@postman.riken.jp> <001a01c990b2$93803080$ba809180$@ac.jp> <499A3DDF.4010202@pccluster.org> <004701c990ca$ea3c1750$beb445f0$@ac.jp> <499A616E.8040604@pccluster.org> Message-ID: <005b01c990e5$c859ab00$590d0100$@ac.jp> ありがとうございます。関東学院の島田です。 > ethernet -type=ethernet channel=0 netdev=eth2 ハイフンの位置が、score6のscorehosts.dbのドキュメントと違いますがよろしいで しょうか。 > として host レコードに > comp0 ... network=ethernet > を指定してください. > scorehosts.db を使用しない場合は > scrun -group=machinefile,network=ethernet:eth2 ./a.out > と指定してください. いずれの場合もコマンドラインには何も表示されず、コンピュートホストが勝手に再 起動してしまいました。 > > [root @ s104-010 ~]# scrun -group=machinefile,network=etherhxb ./a.out > > SCBDSERV: accept() failed. > > scoreboard との接続には失敗していますが, > > > SCore (7.0.0) Connected > > SCORE{1} 16 nodes (2x8) ready. > > SCore-D は etherhxb で立ち上がっています. > > > [1] MTMI: fatal error (0x1): score_attach_network() > > failed: 22 > > ところが, MPI を動かそうとしたところで失敗していますね... > 多分, scoreboard が動いていなかったためだと思います. > SCBDSERV を設定しないか, ファイル名を指定してみてください. Scrun -nodes=8 -group=machinefile,network=etherhxb ./a.out とすると、サーバー兼コンピュートホストで実行されてうまくいきました。 Scrun -group=machinefile,network=etherhxb ./a.out として全ノードで実行させると、同じエラーが出てうまくいきませんでした。 Scoreboardはサーバーのみで起動していればよろしいでしょうか。 よろしくお願い致します。 From ishikawa @ is.s.u-tokyo.ac.jp Wed Feb 18 00:02:49 2009 From: ishikawa @ is.s.u-tokyo.ac.jp (Yutaka Ishikawa) Date: Wed, 18 Feb 2009 00:02:49 +0900 (JST) Subject: [SCore-users-jp] =?iso-2022-jp?b?GyRCJTklUSUzJXMkcjtIJEMbKEI=?= =?iso-2022-jp?b?GyRCJD8lVyVtJTAlaSVfJXMlMCUzJXMlRiU5JUgzKzpFMEZGYhsoQg==?= Message-ID: <20090218.000249.365036596.ishikawa@is.s.u-tokyo.ac.jp> SCoreユ−ザメ−リングリストの皆様、 以下の通り、TOP500において国内スパコン上位4つのマシンを使った、並列プ ログラミングコンテストを開催します。PCクラスタコンソ−シアムが主催して おります。 学生の皆様、春休み、スパコン三昧しませんか? 教員の皆様には、是非、学生の皆様に声をおかけ頂けると幸いです。 なお、PCクラスタコンソ−シアムより副賞が贈呈される予定でおります。 参加登録締め切りは、2月23日です。学生の皆様の参加をお待ちしております。 石川 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% クラスタシステム上での並列プログラミングコンテスト    http://www2.cc.u-tokyo.ac.jp/procon    SACSIS2009 併設企画    主催:東京大学情報基盤センター、筑波大学計算科学研究センター       東京工業大学学術国際情報センター、京都大学学術情報メディアセンター       PCクラスタコンソーシアム 趣旨と概要: 2008年6月のTOP500リストでは、日本国内のスパコンの上位4マシン(東大、筑 波大、東工大、京大)までがクラスタとなりました。これらクラスタでは、多 数のCPUコアが搭載されているPCサ−バ群を高性能ネットワ−クでつなげた構 成となっています。この動向は、国内に限らず世界的なものであり、ますます、 マルチコア型クラスタ上の並列プログラミングが重要となっています。 このような背景の中、学生や研究者に対するクラスタ上での並列プログラミン グの啓蒙を目的に、国内トップ4マシンを有する東京大学、筑波大学、東京工 業大学、京都大学の各スパコンセンターとPCクラスタコンソーシアムが主催し て、並列プログラミングコンテストを開催します。計算科学や情報科学で使わ れる数値計算や探索などのアルゴリズムの並列化や並列プログラムのチューニ ングなどを課題にする予定です。 3月4日から4月14日まで、主催4大学のクラスタシステムのうち、8ノード(約 1TFlops)を使ったプログラム開発が可能です。4月15日〜16日に東京大学情報 基盤センターのHA8000クラスタシステムのうち8ノードを使った予選を行いま す。予選を勝ち抜いたものにより、32ノード(4TFlops)を使った本選を行いま す。SACSIS2009併設企画の場において、優秀な成績を収めた方を表彰します。 計算機資源: 東京大学:http://www.cc.u-tokyo.ac.jp/ha8000/ 筑波大学:http://www.ccs.tsukuba.ac.jp/CCS 東京工業大学:http://www.gsic.titech.ac.jp/ 京都大学:http://web.kudpc.kyoto-u.ac.jp/hpc/ 参加資格: 日本国内の大学に在学中の学生。ただし、外国籍の学生の場合は、6ヶ月以 上日本に滞在していること。 参加方法: 2月23日(月) 午後5:00までに以下のURLにて登録してください。参加無料です。          http://www2.cc.u-tokyo.ac.jp/procon スケジュール(予定): 1) 2月17日(火) 課題アナウンス 2) 2月23日(月) 午後5:00 参加登録締め切り 3) 3月 4日(水)〜4月14日(火) プログラミング期間 8ノード利用可能 4) 4月15日(水)〜 16日(木) 予選 (8ノード) 5) 4月22日(水)〜 23日(木) 本選 (32ノード) 6) 5月27日(水) SACSIS2009併設のPCクラスタワークショップ の場で表彰 (副賞あり) 実行委員(あいうえお順): 石川 裕(東京大学) 亀山 豊久(理化学研究所) 鴨志田 良和(東京大学) 久門 耕一(富士通研究所) 佐藤 三久(筑波大学) 清水 正明(日立中研) 住元 真司(富士通研究所) 中島 研吾(東京大学) 中島 浩(京都大学) 成瀬 彰(富士通研究所) 長谷川 篤史 (NEC情報システムズ) 原田 浩(HP) 姫野 龍太郎(理化学研究所) 朴 泰祐(筑波大学) 平石 拓(京都大学) 堀 敦史(東京大学) 松岡 聡(東京工業大学) 鷲尾 巧(東京大学) From kameyama @ pccluster.org Wed Feb 18 09:27:00 2009 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Wed, 18 Feb 2009 09:27:00 +0900 Subject: =?ISO-2022-JP?B?GyRCIVo6RkF3IVsbKEJSRTogW1NDb3JlLXVzZXJzLWpw?= =?ISO-2022-JP?B?XSBObyBQTVggbmV0d29yayBpcyBzcGVjaWZpZWQ=?= In-Reply-To: <005b01c990e5$c859ab00$590d0100$@ac.jp> References: <453625340901280531o62dc7adfs17c32eb9e3680eff@mail.gmail.com><4980FBF7.1050905@pccluster.org> <001f01c98d9a$466601a0$d33204e0$@ac.jp> <2180.218.41.131.88.1234533048.risu@postman.riken.jp> <001a01c990b2$93803080$ba809180$@ac.jp> <499A3DDF.4010202@pccluster.org> <004701c990ca$ea3c1750$beb445f0$@ac.jp> <499A616E.8040604@pccluster.org> <005b01c990e5$c859ab00$590d0100$@ac.jp> Message-ID: <499B55D4.8050605@pccluster.org> 亀山です. Kazuhiro Shimada Wrote: >> ethernet -type=ethernet channel=0 netdev=eth2 > > ハイフンの位置が、score6のscorehosts.dbのドキュメントと違いますがよろしいで > しょうか。 -type の - も不要だったようです. SCore7 で scorehosts.db の書き方も変わりました. PM では device ごとに config file が必要だったのですが, PMX では これを不要として, パラメータが必要なら scorehosts.db に記述するように なりました. 詳しくは % scorer scorehosts.db をご覧ください. >> として host レコードに >> comp0 ... network=ethernet >> を指定してください. >> scorehosts.db を使用しない場合は >> scrun -group=machinefile,network=ethernet:eth2 ./a.out >> と指定してください. > > いずれの場合もコマンドラインには何も表示されず、コンピュートホストが勝手に再 > 起動してしまいました。 多分, PMX/Ethernet driver の bug だと思います. 再起動したホストの /var/log/messages に何か error message は残っていないでしょうか? > Scrun -nodes=8 -group=machinefile,network=etherhxb ./a.out > > とすると、サーバー兼コンピュートホストで実行されてうまくいきました。 > > Scrun -group=machinefile,network=etherhxb ./a.out > > として全ノードで実行させると、同じエラーが出てうまくいきませんでした。 > > Scoreboardはサーバーのみで起動していればよろしいでしょうか。 サーバのみの起動で良いはずですが... SCBDSERV に書かれたホスト名は正しいでしょうか? scoreboard に私用される port は compute host からアクセスできるように なっているでしょうか? (iptable などが動いていませんでしょうか?) # そもそも scoreboard は scrun 起動ホストでしか見ていないはずですが... 環境変数 SCORE_MESSAGE を ALL:3 にして動かして 出たメッセージをみれば何かわかるかも知れませんけど... Kameyama Toyohisa From shimada @ kanto-gakuin.ac.jp Wed Feb 18 19:16:25 2009 From: shimada @ kanto-gakuin.ac.jp (Kazuhiro Shimada) Date: Wed, 18 Feb 2009 19:16:25 +0900 Subject: =?iso-2022-jp?B?UkU6IBskQiFaOkZBdyFbGyhCUkU6IFtTQ29yZS11c2Vycy1qcF0=?= =?iso-2022-jp?B?IE5vIFBNWCBuZXR3b3JrIGlzIHNwZWNpZmllZA==?= In-Reply-To: <499B55D4.8050605@pccluster.org> References: <453625340901280531o62dc7adfs17c32eb9e3680eff@mail.gmail.com><4980FBF7.1050905@pccluster.org> <001f01c98d9a$466601a0$d33204e0$@ac.jp> <2180.218.41.131.88.1234533048.risu@postman.riken.jp> <001a01c990b2$93803080$ba809180$@ac.jp> <499A3DDF.4010202@pccluster.org> <004701c990ca$ea3c1750$beb445f0$@ac.jp> <499A616E.8040604@pccluster.org> <005b01c990e5$c859ab00$590d0100$@ac.jp> <499B55D4.8050605@pccluster.org> Message-ID: <004001c991b1$f4829fd0$dd87df70$@ac.jp> ありがとうございます。関東学院の島田です。 > >> として host レコードに > >> comp0 ... network=ethernet > >> を指定してください. > >> scorehosts.db を使用しない場合は > >> scrun -group=machinefile,network=ethernet:eth2 ./a.out > >> と指定してください. > > > > いずれの場合もコマンドラインには何も表示されず、コンピュートホストが > 勝手に再起動してしまいました。 > > 多分, PMX/Ethernet driver の bug だと思います. > 再起動したホストの > /var/log/messages > に何か error message は残っていないでしょうか? 残っていませんでした…。 Iptableが起動していたので切って、scorehosts.db を使用しないで、 scrun -group=machinefile,network=ethernet:eth2 ./a.out を実行したところ、うまくいって、各ノードからHello!の表示が出ましたが、最後に コマンドラインが表示されず、プログラムが完全に終了しませんでした。これについ て、サーバーの/var/log/messagesを見たところ、以下のメッセージが延々と続いて いました。 コンピュートホストの/var/log/messagesも同様でした。 Feb 18 15:56:05 s104-010 kernel: PMXEthernet: unavailable MSG(u:0 key:16 n:13 p: 1) len 64 Feb 18 15:56:05 s104-010 kernel: PMXEthernet: unavailable MSG(u:0 key:16 n:13 p: 5) len 64 Feb 18 15:56:05 s104-010 kernel: PMXEthernet: unavailable MSG(u:0 key:16 n:13 p: 1) len 80 Feb 18 15:56:05 s104-010 kernel: PMXEthernet: unavailable MSG(u:0 key:16 n:13 p: 5) len 80 > > Scrun -nodes=8 -group=machinefile,network=etherhxb ./a.out > > > > とすると、サーバー兼コンピュートホストで実行されてうまくいきました。 > > > > Scrun -group=machinefile,network=etherhxb ./a.out > > > > として全ノードで実行させると、同じエラーが出てうまくいきませんでした。 > > > > Scoreboardはサーバーのみで起動していればよろしいでしょうか。 > > サーバのみの起動で良いはずですが... > SCBDSERV に書かれたホスト名は正しいでしょうか? > scoreboard に私用される port は compute host からアクセスできるように > なっているでしょうか? > (iptable などが動いていませんでしょうか?) > > # そもそも scoreboard は scrun 起動ホストでしか見ていないはずですが... > > 環境変数 SCORE_MESSAGE を ALL:3 にして動かして > 出たメッセージをみれば何かわかるかも知れませんけど... 上で書きましたようにIptableが起動していたので切りました。 SCBDSERV=s104-010.shimada.labとなっています。 以下のように実行すると、サーバー兼コンピュートホストのs104-010で実行されて、 以下のようになります。 [root @ s104-010 ~]# scrun -nodes=2 -group=machinefile,network=etherhxb ./a.out SCBDSERV: accept() failed. SCore (7.0.0) Connected SCORE{1} 2 nodes (1x2) ready. Hello !! from s104-010.shimada.lab @ 0/2 Hello !! from s104-010.shimada.lab @ 1/2 /var/log/messagesには Feb 18 17:59:16 s104-010 kernel: pmhxbgetaddrmulti(7ffffcf78290) error at eth1 , dev=ffff8801ec6e7000 1002 Feb 18 17:59:16 s104-010 kernel: pmhxbgetaddrmulti(7ffffcf78290) error at eth2 , dev=ffff8801ebd56000 1002 とメッセージが残ります。 Scoreboardが切れているので、起動しなおして、以下のように実行すると、 [root @ s104-010 ~]# scrun -group=machinefile,network=etherhxb ./a.out SCBDSERV: accept() failed. SCore (7.0.0) Connected SCORE{1} 16 nodes (2x8) ready. [1] MTMI: fatal error (0x1): score_attach_network() failed: 22[3] MTMI: fatal error (0x1): score_attach_network() failed: 22[10] MTMI: fatal error (0x1): score_attach_network() failed: 22[9] MTMI: fatal error (0x1): score_attach_network() failed: 22[11] MTMI: fatal error (0x1): score_attach_network() failed: 22 <1> SCORE: Program signaled (Aborted). と表示されて、/var/log/messagesには、 Feb 18 18:27:29 s104-010 kernel: pmhxbgetaddrmulti(7fffe6160100) error at eth1 , dev=ffff8801ee950000 1002 Feb 18 18:27:29 s104-010 kernel: pmhxbgetaddrmulti(7fffe6160100) error at eth2 , dev=ffff8800001f6000 1002 とメッセージが残ります。 で、環境変数 SCORE_MESSAGE を ALL:3 にして [root @ s104-010 ~]# scrun -group=machinefile,network=etherhxb ./a.out で得られたメッセージが添付のerrlogです。 よろしくお願い致します。 -------------- next part -------------- テキスト形式以外の添付ファイルを保管しました... ファイル名: errLog.tar.gz 型: application/x-gzip サイズ: 74259 バイト 説明: 無し URL: From kameyama @ pccluster.org Thu Feb 19 13:53:30 2009 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Thu, 19 Feb 2009 13:53:30 +0900 Subject: =?ISO-2022-JP?B?GyRCIVo6RkF3IVsbKEJSRTogW1NDb3JlLXVzZXJzLWpw?= =?ISO-2022-JP?B?XSBObyBQTVggbmV0d29yayBpcyBzcGVjaWZpZWQ=?= In-Reply-To: <004001c991b1$f4829fd0$dd87df70$@ac.jp> References: <453625340901280531o62dc7adfs17c32eb9e3680eff@mail.gmail.com><4980FBF7.1050905@pccluster.org> <001f01c98d9a$466601a0$d33204e0$@ac.jp> <2180.218.41.131.88.1234533048.risu@postman.riken.jp> <001a01c990b2$93803080$ba809180$@ac.jp> <499A3DDF.4010202@pccluster.org> <004701c990ca$ea3c1750$beb445f0$@ac.jp> <499A616E.8040604@pccluster.org> <005b01c990e5$c859ab00$590d0100$@ac.jp> <499B55D4.8050605@pccluster.org> <004001c991b1$f4829fd0$dd87df70$@ac.jp> Message-ID: <499CE5CA.9010401@pccluster.org> 亀山です. Kazuhiro Shimada Wrote: > 残っていませんでした…。 > Iptableが起動していたので切って、scorehosts.db を使用しないで、 > scrun -group=machinefile,network=ethernet:eth2 ./a.out > を実行したところ、うまくいって、各ノードからHello!の表示が出ましたが、最後に > コマンドラインが表示されず、プログラムが完全に終了しませんでした。これについ > て、サーバーの/var/log/messagesを見たところ、以下のメッセージが延々と続いて > いました。 > コンピュートホストの/var/log/messagesも同様でした。 SCore では scout 間とかで IP 通信を行っているので, iptable との共存は難しいと思います. 更に PMX での通信に ethernet を使う場合は IP でないパケットを 私用しているので, さらに困難に... (多分, PMX/etherhxb は NIC driver から直接パケットを取ってくるので 動くかも知れませんが, PMX/ethernet は NIC driver をいじらなくても 使えるようにしたため, 通信できないと思います.) ということで iptable は使用しないでください. 終了処理がうまくいっていないのは, 多分 bug だと思います. とりあえず, ^C で終了させて使用してください. > SCBDSERV=s104-010.shimada.labとなっています。 > 以下のように実行すると、サーバー兼コンピュートホストのs104-010で実行されて、 > 以下のようになります。 > > [root @ s104-010 ~]# scrun -nodes=2 -group=machinefile,network=etherhxb > ./a.out > SCBDSERV: accept() failed. > SCore (7.0.0) Connected > SCORE{1} 2 nodes (1x2) ready. > Hello !! from s104-010.shimada.lab @ 0/2 > Hello !! from s104-010.shimada.lab @ 1/2 > > /var/log/messagesには > Feb 18 17:59:16 s104-010 kernel: pmhxbgetaddrmulti(7ffffcf78290) error at > eth1 , dev=ffff8801ec6e7000 1002 > Feb 18 17:59:16 s104-010 kernel: pmhxbgetaddrmulti(7ffffcf78290) error at > eth2 , dev=ffff8801ebd56000 1002 > とメッセージが残ります。 > > Scoreboardが切れているので、起動しなおして、以下のように実行すると、 > [root @ s104-010 ~]# scrun -group=machinefile,network=etherhxb ./a.out > SCBDSERV: accept() failed. > SCore (7.0.0) Connected > SCORE{1} 16 nodes (2x8) ready. > [1] MTMI: fatal error (0x1): score_attach_network() failed: 22[3] MTMI: > fatal error (0x1): score_attach_network() failed: 22[10] MTMI: fatal error > (0x1): score_attach_network() failed: 22[9] MTMI: fatal error (0x1): > score_attach_network() failed: 22[11] MTMI: fatal error (0x1): > score_attach_network() failed: 22 > <1> SCORE: Program signaled (Aborted). > > と表示されて、/var/log/messagesには、 > Feb 18 18:27:29 s104-010 kernel: pmhxbgetaddrmulti(7fffe6160100) error at > eth1 , dev=ffff8801ee950000 1002 > Feb 18 18:27:29 s104-010 kernel: pmhxbgetaddrmulti(7fffe6160100) error at > eth2 , dev=ffff8800001f6000 1002 > とメッセージが残ります。 このメッセージ自体は無視してよさそうですが... > で、環境変数 SCORE_MESSAGE を ALL:3 にして > [root @ s104-010 ~]# scrun -group=machinefile,network=etherhxb ./a.out > で得られたメッセージが添付のerrlogです。 どうも PMX/Etherhxb が 4 cpu しか対応していないようです. とりあえずは, /opt/score/modules/include/pmx_etherhxb_dev.h の #define N_CONTEXT 8 を #define N_CONTEXT 16 にして /opt/score/install/linux2.6 で ./install_modules を実行して reboot すれば動くと思います. Kameyama Toyohisa From shimada @ kanto-gakuin.ac.jp Thu Feb 19 17:52:57 2009 From: shimada @ kanto-gakuin.ac.jp (Kazuhiro Shimada) Date: Thu, 19 Feb 2009 17:52:57 +0900 Subject: =?iso-2022-jp?B?UkU6IBskQiFaOkZBdyFbGyhCUkU6IFtTQ29yZS11c2Vycy1qcF0=?= =?iso-2022-jp?B?IE5vIFBNWCBuZXR3b3JrIGlzIHNwZWNpZmllZA==?= In-Reply-To: <499CE5CA.9010401@pccluster.org> References: <453625340901280531o62dc7adfs17c32eb9e3680eff@mail.gmail.com><4980FBF7.1050905@pccluster.org> <001f01c98d9a$466601a0$d33204e0$@ac.jp> <2180.218.41.131.88.1234533048.risu@postman.riken.jp> <001a01c990b2$93803080$ba809180$@ac.jp> <499A3DDF.4010202@pccluster.org> <004701c990ca$ea3c1750$beb445f0$@ac.jp> <499A616E.8040604@pccluster.org> <005b01c990e5$c859ab00$590d0100$@ac.jp> <499B55D4.8050605@pccluster.org> <004001c991b1$f4829fd0$dd87df70$@ac.jp> <499CE5CA.9010401@pccluster.org> Message-ID: <002701c9926f$75e2c1f0$61a845d0$@ac.jp> ありがとうございます。島田です。 Ethernetを使った方で、コンピュートホストが勝手に再起動したのは、bnx2の方が関 係してたみたいです。 なんかよくわかりませんが…。 > SCore では scout 間とかで IP 通信を行っているので, > iptable との共存は難しいと思います. > 更に PMX での通信に ethernet を使う場合は IP でないパケットを > 私用しているので, さらに困難に... > (多分, PMX/etherhxb は NIC driver から直接パケットを取ってくるので > 動くかも知れませんが, PMX/ethernet は NIC driver をいじらなくても > 使えるようにしたため, 通信できないと思います.) > ということで iptable は使用しないでください. > > 終了処理がうまくいっていないのは, 多分 bug だと思います. > とりあえず, ^C で終了させて使用してください. 承知しました。 > どうも PMX/Etherhxb が 4 cpu しか対応していないようです. > とりあえずは, > /opt/score/modules/include/pmx_etherhxb_dev.h > の > #define N_CONTEXT 8 > を > #define N_CONTEXT 16 > にして > /opt/score/install/linux2.6 > で > ./install_modules > を実行して reboot すれば動くと思います. だめでした…。 Machinefileに2つホストが書かれていると、1つのホストしかいらない Scrun -nodes=8 -group=machinefile,network=etherhxb ./a.out でもSCore-Dが起動するまでで、片方のホストが再起動してしまいました。 Machinefileに1つのホストのみが書かれている場合は、動きました。 From kameyama @ pccluster.org Fri Feb 20 13:53:13 2009 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Fri, 20 Feb 2009 13:53:13 +0900 Subject: =?ISO-2022-JP?B?GyRCIVo6RkF3IVsbKEJSRTogW1NDb3JlLXVzZXJzLWpw?= =?ISO-2022-JP?B?XSBObyBQTVggbmV0d29yayBpcyBzcGVjaWZpZWQ=?= In-Reply-To: <002701c9926f$75e2c1f0$61a845d0$@ac.jp> References: <453625340901280531o62dc7adfs17c32eb9e3680eff@mail.gmail.com><4980FBF7.1050905@pccluster.org> <001f01c98d9a$466601a0$d33204e0$@ac.jp> <2180.218.41.131.88.1234533048.risu@postman.riken.jp> <001a01c990b2$93803080$ba809180$@ac.jp> <499A3DDF.4010202@pccluster.org> <004701c990ca$ea3c1750$beb445f0$@ac.jp> <499A616E.8040604@pccluster.org> <005b01c990e5$c859ab00$590d0100$@ac.jp> <499B55D4.8050605@pccluster.org> <004001c991b1$f4829fd0$dd87df70$@ac.jp> <499CE5CA.9010401@pccluster.org> <002701c9926f$75e2c1f0$61a845d0$@ac.jp> Message-ID: <499E3739.3040505@pccluster.org> 亀山です. ethernet で使用するのでしたら, それでも良いですけど... Kazuhiro Shimada Wrote: > だめでした…。 > Machinefileに2つホストが書かれていると、1つのホストしかいらない > Scrun -nodes=8 -group=machinefile,network=etherhxb ./a.out > でもSCore-Dが起動するまでで、片方のホストが再起動してしまいました。 もしかしたら, eth0 を使用しているかも... (でも, いじっていないときなんで動いたのだろう...) etherhxb のパラメータで slot=2 を指定すれば eth2 を使用すると思います. Kameyama Toyohisa From shimada @ kanto-gakuin.ac.jp Tue Feb 24 16:58:30 2009 From: shimada @ kanto-gakuin.ac.jp (Kazuhiro Shimada) Date: Tue, 24 Feb 2009 16:58:30 +0900 Subject: =?iso-2022-jp?B?UkU6IBskQiFaOkZBdyFbGyhCUkU6IFtTQ29yZS11c2Vycy1qcF0=?= =?iso-2022-jp?B?IE5vIFBNWCBuZXR3b3JrIGlzIHNwZWNpZmllZA==?= In-Reply-To: <499E3739.3040505@pccluster.org> References: <453625340901280531o62dc7adfs17c32eb9e3680eff@mail.gmail.com><4980FBF7.1050905@pccluster.org> <001f01c98d9a$466601a0$d33204e0$@ac.jp> <2180.218.41.131.88.1234533048.risu@postman.riken.jp> <001a01c990b2$93803080$ba809180$@ac.jp> <499A3DDF.4010202@pccluster.org> <004701c990ca$ea3c1750$beb445f0$@ac.jp> <499A616E.8040604@pccluster.org> <005b01c990e5$c859ab00$590d0100$@ac.jp> <499B55D4.8050605@pccluster.org> <004001c991b1$f4829fd0$dd87df70$@ac.jp> <499CE5CA.9010401@pccluster.org> <002701c9926f$75e2c1f0$61a845d0$@ac.jp> <499E3739.3040505@pccluster.org> Message-ID: <001a01c99655$aec9d820$0c5d8860$@ac.jp> ありがとうございます。島田です。 > もしかしたら, eth0 を使用しているかも... > (でも, いじっていないときなんで動いたのだろう...) > etherhxb のパラメータで > slot=2 > を指定すれば eth2 を使用すると思います. やってみましたが、だめでした。 いろいろやってみたのですが、 ethernetを使うときは、マシン起動時にeth0(bnx2)が起動するようにして、マシンが 起動したのち、eth1(bnx2)を起動して、アドレスをeth1に割り当てなおし、eth1を 使ってプログラムを実行するとうまくいきます。Eth1の代わりにeth2(e1000)でやっ てもうまくいきます。 Etherhxbを使ったときは、ehternetを使った時と同じようにをやっても駄目でした。 Iptableの他に切るものはありますでしょうか…。