From shima @ bestsystems.co.jp Mon Apr 12 10:02:32 2010 From: shima @ bestsystems.co.jp (Keigo Shimabukuro) Date: Mon, 12 Apr 2010 10:02:32 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmUbJEIkSyREJCQkRhsoQg==?= Message-ID: <20100412100232.f4373eb0.shima@bestsystems.co.jp> ベストシステムズ島袋と申します。 SCoreでCompute Hostsのインストールができず困っております。 Compute Hosts環境は次です。 【計算機】NEC Express 5800 R120a-1 【OS】CentOS5.4 【コンパイラ】なし 【SCore】 7.0Beta 5 【NICドライバ】igb 【現象と作業内容】 1.まず、7.0Beta 5のバイナリを該当機にRPMインストールし、再起動を実施し たのですが、ネットワーク有効化部分で計算機が固まり、ログイン画面がでませ ん。 2.次に、ネットワークを停止した状態で起動させ、ネットワーク(eth0)を手 動で ifup したのですが、カーネルパニックを起こしてフリーズしてしまいまし た。 3.ドライバが原因かと推測し、e1000にモジュール変更し試してみたのです が、同じ現象が出ました。 4.次にRPMを横に置き、ソースコンパイルを試してみたのですが、添付ファイ ルのようにエラー出力し、設定できない状態です。 ソースコンパイル自体は、単にconfigure -prefix=***;makeを行いました。 SCoreダウンロードページには、Cent5.4でテストしたとの記載があります。 何か解決策がありますでしょうか。ご教授頂けると幸いです。 宜しくお願い致します. -- Keigo Shimabukuro -------------- next part -------------- テキスト形式以外の添付ファイルを保管しました... ファイル名: output.tgz 型: application/x-gtar サイズ: 47513 バイト 説明: 無し URL: From kameyama @ pccluster.org Mon Apr 12 10:55:25 2010 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Mon, 12 Apr 2010 10:55:25 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmUbJEIkSyREJCQkRhsoQg==?= In-Reply-To: <20100412100232.f4373eb0.shima@bestsystems.co.jp> References: <20100412100232.f4373eb0.shima@bestsystems.co.jp> Message-ID: <4BC27D8D.9040408@pccluster.org> 亀山です. (04/12/10 10:02), Keigo Shimabukuro Wrote: > > Compute Hosts環境は次です。 > > 【計算機】NEC Express 5800 R120a-1 > 【OS】CentOS5.4 > 【コンパイラ】なし > 【SCore】 7.0Beta 5 > 【NICドライバ】igb > > 【現象と作業内容】 > 1.まず、7.0Beta 5のバイナリを該当機にRPMインストールし、再起動を実施し > たのですが、ネットワーク有効化部分で計算機が固まり、ログイン画面がでませ > ん。 > 2.次に、ネットワークを停止した状態で起動させ、ネットワーク(eth0)を手 > 動で ifup したのですが、カーネルパニックを起こしてフリーズしてしまいまし > た。 > 3.ドライバが原因かと推測し、e1000にモジュール変更し試してみたのです > が、同じ現象が出ました。 すみません. igb driver を SCore のものではなく, original を使用するように してください. /lib/modules/2.6.18-164.el5/modules.alias から _pmx で終わる行を削除してください. これで PMX/Etherhxb は使用できませんが, PMX/Ethernet は使用できます. > 4.次にRPMを横に置き、ソースコンパイルを試してみたのですが、添付ファイ > ルのようにエラー出力し、設定できない状態です。 > ソースコンパイル自体は、単にconfigure -prefix=***;makeを行いました。 source からの compile は source が score7-src にあることを 前提としているためと, score7-src/build/rules/lib-perl の bug のためでした. lib-perl を添付のものに置き換えてください. Kameyama Toyohisa -------------- next part -------------- 文字コード指定の無い添付文書を保管しました... 名前: lib-perl URL: From shima @ bestsystems.co.jp Mon Apr 12 17:51:22 2010 From: shima @ bestsystems.co.jp (Keigo Shimabukuro) Date: Mon, 12 Apr 2010 17:51:22 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmUbJEIkSyREJCQkRhsoQg==?= In-Reply-To: <4BC27D8D.9040408@pccluster.org> References: <20100412100232.f4373eb0.shima@bestsystems.co.jp> <4BC27D8D.9040408@pccluster.org> Message-ID: <20100412175122.1d03d79e.shima@bestsystems.co.jp> 亀山様 ご回答ありがとうございます。 modules.aliasから_pmxを削除し、OSを起動することはできました。 その後、server hostで、PMX/Ethernetを使って、hello プログラムをscrunした のですが、 WINDUP.EXE @ score1#8453:WARNING: connect_host() at windup.c:214: score2:38941: Connection refused WINDUP.EXE @ score1#8453:WARNING: connect_host() at windup.c:214: score2:38941: Connection refused WINDUP.EXE @ score1#8453:WARNING: connect_host() at windup.c:214: score2:38941: Connection refused WINDUP.EXE @ score1#8453:WARNING: connect_host() at windup.c:214: score2:38941: Connection refused WINDUP.EXE @ score1#8453:WARNING: connect_host() at windup.c:214: score2:38941: Connection refused WINDUP.EXE @ score1#8453:WARNING: connect_host() at windup.c:214: score2:38941: Connection refused WINDUP.EXE @ score1#8453:WARNING: connect_host() at windup.c:214: score2:38941: Connection refused WINDUP.EXE @ score1#8453:WARNING: connect_host() at windup.c:214: score2:38941: Connection refused WINDUP.EXE @ score1#8453:WARNING: connect_host() at windup.c:214: score2:38941: Connection refused WINDUP.EXE @ score1#8453:WARNING: connect_host() at windup.c:214: score2:38941: Connection refused WINDUP.EXE @ score1#8453:ERROR: main() at windup.c:686: score2:38941: Connection refused となり、実行できません。 Compute Hosts、Server nodeともに同じ環境を利用しています。 本現象、回避先はございますでしょうか。 ご教授頂けると幸いです。 以上 On Mon, 12 Apr 2010 10:55:25 +0900 Kameyama Toyohisa wrote: > 亀山です. > > (04/12/10 10:02), Keigo Shimabukuro Wrote: > > > > Compute Hosts環境は次です。 > > > > 【計算機】NEC Express 5800 R120a-1 > > 【OS】CentOS5.4 > > 【コンパイラ】なし > > 【SCore】 7.0Beta 5 > > 【NICドライバ】igb > > > > 【現象と作業内容】 > > 1.まず、7.0Beta 5のバイナリを該当機にRPMインストールし、再起動を実 > > 施したのですが、ネットワーク有効化部分で計算機が固まり、ログイン画面 > > がでません。 > > 2.次に、ネットワークを停止した状態で起動させ、ネットワーク(eth0) > > を手動で ifup したのですが、カーネルパニックを起こしてフリーズしてし > > まいました。 > > 3.ドライバが原因かと推測し、e1000にモジュール変更し試してみたので > > すが、同じ現象が出ました。 > > すみません. > igb driver を SCore のものではなく, original を使用するように > してください. > /lib/modules/2.6.18-164.el5/modules.alias > から _pmx で終わる行を削除してください. > これで PMX/Etherhxb は使用できませんが, PMX/Ethernet は使用できます. > > > 4.次にRPMを横に置き、ソースコンパイルを試してみたのですが、添付 > > ファイルのようにエラー出力し、設定できない状態です。 > > ソースコンパイル自体は、単にconfigure -prefix=***;makeを行いました。 > > source からの compile は source が score7-src にあることを > 前提としているためと, score7-src/build/rules/lib-perl の bug のためで > した. lib-perl を添付のものに置き換えてください. > > Kameyama Toyohisa -- Keigo Shimabukuro From kameyama @ pccluster.org Tue Apr 13 09:08:03 2010 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Tue, 13 Apr 2010 09:08:03 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmUbJEIkSyREJCQkRhsoQg==?= In-Reply-To: <20100412175122.1d03d79e.shima@bestsystems.co.jp> References: <20100412100232.f4373eb0.shima@bestsystems.co.jp> <4BC27D8D.9040408@pccluster.org> <20100412175122.1d03d79e.shima@bestsystems.co.jp> Message-ID: <4BC3B5E3.7010107@pccluster.org> 亀山です. (04/12/10 17:51), Keigo Shimabukuro Wrote: > modules.aliasから_pmxを削除し、OSを起動することはできました。 > その後、server hostで、PMX/Ethernetを使って、hello プログラムをscrunした > のですが、 > > WINDUP.EXE @ score1#8453:WARNING: connect_host() at windup.c:214: > score2:38941: Connection refused WINDUP.EXE @ score1#8453:WARNING: > connect_host() at windup.c:214: score2:38941: Connection refused server ないし compute host の firewall が有効になっているのだと思います. SCore では scout 起動時にランダムな port を使用します. firewall の設定を無効にしてください. Kameyama Toyohisa From shima @ bestsystems.co.jp Tue Apr 13 18:33:28 2010 From: shima @ bestsystems.co.jp (Keigo Shimabukuro) Date: Tue, 13 Apr 2010 18:33:28 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmUbJEIkSyREJCQkRhsoQg==?= In-Reply-To: <4BC3B5E3.7010107@pccluster.org> References: <20100412100232.f4373eb0.shima@bestsystems.co.jp> <4BC27D8D.9040408@pccluster.org> <20100412175122.1d03d79e.shima@bestsystems.co.jp> <4BC3B5E3.7010107@pccluster.org> Message-ID: <20100413183328.7e6c1268.shima@bestsystems.co.jp> 亀山様 度々申し訳ございません。 Connection refusedは回避することはできたのですが、machinefileファイルに2 台(Server Host、Compute node)を記載し、実行した場合では下記のエラーが出 ます。 SCORED.EXE @ score1#8158:ERROR: open_pmx_context() at mpcrt.c:117: No PMX network. SCOUT(score1): Process 8158 exited with a non-zero exit code (9). 1台を記載し、それぞれを実行した場合には正常にHello!!が表示します。 scorehosts.dbの設定は、 #define HOST_A socks=2 core=8 speed=1600 #define NET_A network=ethernet #define GROUP_A group=_scoreall_,pcc score1 HOST_A NET_A GROUP_A score2  HOST_A NET_A GROUP_A と記載しています。 上記のエラーに関してご助力頂けると幸いです。 何卒宜しくお願い致します。 以上 On Tue, 13 Apr 2010 09:08:03 +0900 Kameyama Toyohisa wrote: > 亀山です. > > (04/12/10 17:51), Keigo Shimabukuro Wrote: > > modules.aliasから_pmxを削除し、OSを起動することはできました。 > > その後、server hostで、PMX/Ethernetを使って、hello プログラムをscrun > > したのですが、 > > > > WINDUP.EXE @ score1#8453:WARNING: connect_host() at windup.c:214: > > score2:38941: Connection refused WINDUP.EXE @ score1#8453:WARNING: > > connect_host() at windup.c:214: score2:38941: Connection refused > > server ないし compute host の firewall が有効になっているのだと思いま > す. SCore では scout 起動時にランダムな port を使用します. > firewall の設定を無効にしてください. > > Kameyama Toyohisa > > -- Keigo Shimabukuro From kameyama @ pccluster.org Wed Apr 14 09:46:23 2010 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Wed, 14 Apr 2010 09:46:23 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmUbJEIkSyREJCQkRhsoQg==?= In-Reply-To: <20100413183328.7e6c1268.shima@bestsystems.co.jp> References: <20100412100232.f4373eb0.shima@bestsystems.co.jp> <4BC27D8D.9040408@pccluster.org> <20100412175122.1d03d79e.shima@bestsystems.co.jp> <4BC3B5E3.7010107@pccluster.org> <20100413183328.7e6c1268.shima@bestsystems.co.jp> Message-ID: <4BC5105F.4050401@pccluster.org> 亀山です. (04/13/10 18:33), Keigo Shimabukuro Wrote: > Connection refusedは回避することはできたのですが、machinefileファイルに2 > 台(Server Host、Compute node)を記載し、実行した場合では下記のエラーが出 > ます。 > > SCORED.EXE @ score1#8158:ERROR: open_pmx_context() at mpcrt.c:117: No PMX > network. SCOUT(score1): Process 8158 exited with a non-zero exit code > (9). > > 1台を記載し、それぞれを実行した場合には正常にHello!!が表示します。 とりあえず, 以下をチェックしてみてください. 1. score1 及び score2 で PMX/Ethernet は有効になっているか? 各 host の /proc/pmx/ether_loader を見てください. これが存在しない場合は # /etc/init.d/pmx_ethernet start を実行してみてください. この file に PMX/Ethernet (magic number 0xff0102ff) (any ethernet device) というのがあれば PMX/Ethernet が使用可能です. 2. pmxtest が動くかどうか? % scout -group pcc $ pmxtest -network ethernet を実行してみてください. これが動けば PMX/Ethernet 自体は大丈夫です. 3. network を明に指定したら動くか? % scrun -network=ethernet ... をやってみてください. Kameyama Toyohisa From shima @ bestsystems.co.jp Wed Apr 14 11:26:43 2010 From: shima @ bestsystems.co.jp (Keigo Shimabukuro) Date: Wed, 14 Apr 2010 11:26:43 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmUbJEIkSyREJCQkRhsoQg==?= In-Reply-To: <4BC5105F.4050401@pccluster.org> References: <20100412100232.f4373eb0.shima@bestsystems.co.jp> <4BC27D8D.9040408@pccluster.org> <20100412175122.1d03d79e.shima@bestsystems.co.jp> <4BC3B5E3.7010107@pccluster.org> <20100413183328.7e6c1268.shima@bestsystems.co.jp> <4BC5105F.4050401@pccluster.org> Message-ID: <20100414112643.6e309db8.shima@bestsystems.co.jp> 亀山様 回答ありがとうございます。 Server Host(score1)にscore7.Beta.5-comp-7.Beta.5-1.x86_64.rpmがインス トールされていなかったのが、原因だったようです。 rpmをインストール後、PMX/Ethernetで動作させることができました。 大変お騒がせしました。またありがとうございました。 ただ、1点 hello.cをコンパイル実行した際、コンソールが返ってこないことが あります。(Compute nodeからの返り) こちら、何か考えられる原因はございますでしょうか。 重ね重ねお願い申し上げます。 以上 On Wed, 14 Apr 2010 09:46:23 +0900 Kameyama Toyohisa wrote: > 亀山です. > > (04/13/10 18:33), Keigo Shimabukuro Wrote: > > Connection refusedは回避することはできたのですが、machinefileファイ > > ルに2 台(Server Host、Compute node)を記載し、実行した場合では下記の > > エラーが出ます。 > > > > SCORED.EXE @ score1#8158:ERROR: open_pmx_context() at mpcrt.c:117: No > > PMX network. SCOUT(score1): Process 8158 exited with a non-zero > > exit code (9). > > > > 1台を記載し、それぞれを実行した場合には正常にHello!!が表示します。 > > とりあえず, 以下をチェックしてみてください. > > 1. score1 及び score2 で PMX/Ethernet は有効になっているか? > 各 host の > /proc/pmx/ether_loader > を見てください. > これが存在しない場合は > # /etc/init.d/pmx_ethernet start > を実行してみてください. > この file に > PMX/Ethernet (magic number 0xff0102ff) > (any ethernet device) > というのがあれば PMX/Ethernet が使用可能です. > > 2. pmxtest が動くかどうか? > % scout -group pcc > $ pmxtest -network ethernet > を実行してみてください. > これが動けば PMX/Ethernet 自体は大丈夫です. > > 3. network を明に指定したら動くか? > % scrun -network=ethernet ... > をやってみてください. > > Kameyama Toyohisa > > -- Keigo Shimabukuro From tsuchiya @ prologj.com Tue Apr 27 10:57:25 2010 From: tsuchiya @ prologj.com (=?iso-2022-jp?b?dHN1Y2hpeWEgGyRCIXcbKEIgcHJvbG9nai5jb20=?=) Date: Tue, 27 Apr 2010 10:57:25 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU2LjAuMi4xGyRCJEckThsoQk15?= =?iso-2022-jp?b?cmluZXQbJEIkTkBfRGokSyREJCQkRhsoQg==?= Message-ID: <6CAF7E0D-37C7-4377-8AA6-E8A7CE7EF6A0@prologj.com> 土屋@東清SIです。 SCoreのインストール後のscstestで、myritnetを使用するとエラーがでていまして、 どなたか原因をお教え願えませんでしょうか。 SCoreディストリビューション:SCore6.0.2.1 EIT6.0でインストール後の設定ファイルにmyrinetの部分を書き換えました。 MB: Asus P5BV CPU: Core2Duo Myrinetカード: M3M-PCI64B-2 LANai9.1 (SANケーブル) x8ノード Myrineスイッチ: M2M-OCT-SW8 scstestのethernetはOKですが、 [root @ custer2 ~]# msgb -group pcc & [1] 21961 [root @ custer2 ~]# scout -g pcc SCOUT: Spawning done. SCOUT: session started. [root @ custer2 ~]# scstest -network ethernet type=ethernet -config:file=/opt/score/etc/pm-ethernet.conf SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16) 50 K packets. (2.576e+00 kpps) 100 K packets. (2.524e+00 kpps) 150 K packets. (2.178e+00 kpps) (ethernetはOK) myrinetで実行すると、 [root @ custer2 ~]# scstest -network myrinet -config:file=/opt/score/etc/pm-myrinet.conf Unable to open a network configuration file (5): network='myrinet', attribute='-firmware:file' Unable to open a network configuration file (5): network='myrinet', attribute='-firmware:file' Unable to open a network configuration file (5): network='myrinet', attribute='-firmware:file' Unable to open a network configuration file (5): network='myrinet', attribute='-firmware:file' Unable to open a network configuration file (5): network='myrinet', attribute='-firmware:file' Unable to open a network configuration file (5): network='myrinet', attribute='-firmware:file' Unable to open a network configuration file (5): network='myrinet', attribute='-firmware:file' Unable to open a network configuration file (5): network='myrinet', attribute='-firmware:file' [root @ custer2 ~]# pm-myrinet.confの内容は、 0 custer2comp0.jp 3.1 1 custer2comp1.jp 3.3 2 custer2comp2.jp 3.2 3 custer2comp3.jp 3.0 4 custer2comp4.jp 2.1 5 custer2comp5.jp 2.3 6 custer2comp6.jp 2.2 7 custer2comp7.jp 2.0 scorehosts.dbの内容は、 /* * SCore 5.0 scorehosts.db * generated by PCCC EIT 6.0 */ /* PM/Myrinet */ myrinet type=myrinet \ -firmware:file=/opt/score/share/lanai/lanai.mcp \ -config:file=/opt/score/etc/pm-myrinet.conf /* PM/Ethernet */ ethernet type=ethernet \ -config:file=/opt/score/etc/pm-ethernet.conf ## ## #include "/opt/score//etc/ndconf/0" #include "/opt/score//etc/ndconf/1" #include "/opt/score//etc/ndconf/2" #include "/opt/score//etc/ndconf/3" #include "/opt/score//etc/ndconf/4" #include "/opt/score//etc/ndconf/5" #include "/opt/score//etc/ndconf/6" #include "/opt/score//etc/ndconf/7" ## #define MSGBSERV msgbserv=(custer2.jp:8764) custer2comp0.jp HOST_0 network=myrinet,ethernet group=_scoreall_,pcc,pcc4a,pcc2a smp=2 MSGBSERV custer2comp1.jp HOST_1 network=myrinet,ethernet group=_scoreall_,pcc,pcc4a,pcc2a smp=2 MSGBSERV custer2comp2.jp HOST_2 network=myrinet,ethernet group=_scoreall_,pcc,pcc4a,pcc2b smp=2 MSGBSERV custer2comp3.jp HOST_3 network=myrinet,ethernet group=_scoreall_,pcc,pcc4a,pcc2b smp=2 MSGBSERV custer2comp4.jp HOST_4 network=myrinet,ethernet group=_scoreall_,pcc,pcc4b,pcc2c smp=2 MSGBSERV custer2comp5.jp HOST_5 network=myrinet,ethernet group=_scoreall_,pcc,pcc4b,pcc2c smp=2 MSGBSERV custer2comp6.jp HOST_6 network=myrinet,ethernet group=_scoreall_,pcc,pcc4b,pcc2d smp=2 MSGBSERV custer2comp7.jp HOST_7 network=myrinet,ethernet group=_scoreall_,pcc,pcc4b,pcc2d smp=2 MSGBSERV 注:ドメイン名は一部削除。 -------------- next part -------------- HTMLの添付ファイルを保管しました... URL: From kameyama @ pccluster.org Tue Apr 27 11:36:40 2010 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Tue, 27 Apr 2010 11:36:40 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU2LjAuMi4xGyRCJEckThsoQk15?= =?iso-2022-jp?b?cmluZXQbJEIkTkBfRGokSyREJCQkRhsoQg==?= In-Reply-To: <6CAF7E0D-37C7-4377-8AA6-E8A7CE7EF6A0@prologj.com> References: <6CAF7E0D-37C7-4377-8AA6-E8A7CE7EF6A0@prologj.com> Message-ID: <4BD64DB8.8040402@pccluster.org> 亀山です. (04/27/10 10:57), tsuchiya @ prologj.com Wrote: > myrinetで実行すると、 > > [root @ custer2 ~]# scstest -network myrinet > -config:file=/opt/score/etc/pm-myrinet.conf > Unable to open a network configuration file (5): なんか pm-myrinet.conf が読めないみたいですね. http://www.pccluster.org/pipermail/score-users-jp/2008-October/003465.html のあたりと似たような現象かも... とりあえず, /opt/score/deploy/scbfile myrinet -config:file をチェックしてみてください. > pm-myrinet.confの内容は、 > > 0 custer2comp0.jp 3.1 > 1 custer2comp1.jp 3.3 > 2 custer2comp2.jp 3.2 > 3 custer2comp3.jp 3.0 > 4 custer2comp4.jp 2.1 > 5 custer2comp5.jp 2.3 > 6 custer2comp6.jp 2.2 > 7 custer2comp7.jp 2.0 記述がたらないような... 以下を追加してください. # M2M-OCT-SW8 No.0 internal switch 0.4 4.0 switch 0.5 5.0 switch 0.6 6.0 switch 0.7 7.0 switch 1.4 4.1 switch 1.5 5.1 switch 1.6 6.1 switch 1.7 7.1 switch 2.4 4.2 switch 2.5 5.2 switch 2.6 6.2 switch 2.7 7.2 switch 3.4 4.3 switch 3.5 5.3 switch 3.6 6.3 switch 3.7 7.3 # M2M-OCT-SW8 routing policy search 0 0 4 1 5 2 6 3 7 search 1 0 4 1 5 2 6 3 7 search 2 0 4 1 5 2 6 3 7 search 3 0 4 1 5 2 6 3 7 search 4 0 4 1 5 2 6 3 7 search 5 0 4 1 5 2 6 3 7 search 6 0 4 1 5 2 6 3 7 search 7 0 4 1 5 2 6 3 7 Kameyama Toyohisa From tsuchiya @ prologj.com Tue Apr 27 14:11:51 2010 From: tsuchiya @ prologj.com (=?iso-2022-jp?b?dHN1Y2hpeWEgGyRCIXcbKEIgcHJvbG9nai5jb20=?=) Date: Tue, 27 Apr 2010 14:11:51 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU2LjAuMi4xGyRCJEckThsoQk15?= =?iso-2022-jp?b?cmluZXQbJEIkTkBfRGokSyREJCQkRhsoQg==?= In-Reply-To: <4BD64DB8.8040402@pccluster.org> References: <6CAF7E0D-37C7-4377-8AA6-E8A7CE7EF6A0@prologj.com> <4BD64DB8.8040402@pccluster.org> Message-ID: <9EA63B9F-E70C-42CB-BF72-9AC4A6B1CCEC@prologj.com> 土屋です。 アドバイスありがとうございます。 On 2010/04/27, at 11:36, Kameyama Toyohisa wrote: > とりあえず, > /opt/score/deploy/scbfile myrinet -config:file > をチェックしてみてください. > /var/score/scoreboard/custer2.V5:EMw とのメッセージが返ってきました。 中身は、 0 custer2comp0.jp 3.1 1 custer2comp1.jp 3.3 2 custer2comp2.jp 3.2 3 custer2comp3.jp 3.0 4 custer2comp4.jp 2.1 5 custer2comp5.jp 2.3 6 custer2comp6.jp 2.2 7 custer2comp7.jp 2.0 M2M-OCT-SW8 No.0 internal switch 0.4 4.0 switch 0.5 5.0 switch 0.6 6.0 switch 0.7 7.0 switch 1.4 4.1 switch 1.5 5.1 switch 1.6 6.1 switch 1.7 7.1 switch 2.4 4.2 switch 2.5 5.2 switch 2.6 6.2 switch 2.7 7.2 switch 3.4 4.3 switch 3.5 5.3 switch 3.6 6.3 switch 3.7 7.3 # M2M-OCT-SW8 routing policy search 0 0 4 1 5 2 6 3 7 search 1 0 4 1 5 2 6 3 7 search 2 0 4 1 5 2 6 3 7 search 3 0 4 1 5 2 6 3 7 search 4 0 4 1 5 2 6 3 7 search 5 0 4 1 5 2 6 3 7 search 6 0 4 1 5 2 6 3 7 search 7 0 4 1 5 2 6 3 7 で、pm-myrinet.confの内容と同じです。 > 記述がたらないような... > 以下を追加してください. > > # M2M-OCT-SW8 No.0 internal > switch 0.4 4.0 > switch 0.5 5.0 > switch 0.6 6.0 > switch 0.7 7.0 > switch 1.4 4.1 > switch 1.5 5.1 > switch 1.6 6.1 > switch 1.7 7.1 > switch 2.4 4.2 > switch 2.5 5.2 > switch 2.6 6.2 > switch 2.7 7.2 > switch 3.4 4.3 > switch 3.5 5.3 > switch 3.6 6.3 > switch 3.7 7.3 > > # M2M-OCT-SW8 routing policy > search 0 0 4 1 5 2 6 3 7 > search 1 0 4 1 5 2 6 3 7 > search 2 0 4 1 5 2 6 3 7 > search 3 0 4 1 5 2 6 3 7 > search 4 0 4 1 5 2 6 3 7 > search 5 0 4 1 5 2 6 3 7 > search 6 0 4 1 5 2 6 3 7 > search 7 0 4 1 5 2 6 3 7 > 修正して、logout/login後、scstestをやって見ましたが、現象に変化はありません。 ということで, 以下をチェックしてください. 1. compute host に /var/score/scoreboard というディレクトリが存在するか? パーミッションは誰でも読み書きできるようにしてください. ーー>これもありました。 すみませんが引き続きよろしくお願いします。 -------------- next part -------------- HTMLの添付ファイルを保管しました... URL: From kameyama @ pccluster.org Tue Apr 27 14:40:01 2010 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Tue, 27 Apr 2010 14:40:01 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU2LjAuMi4xGyRCJEckThsoQk15?= =?iso-2022-jp?b?cmluZXQbJEIkTkBfRGokSyREJCQkRhsoQg==?= In-Reply-To: <9EA63B9F-E70C-42CB-BF72-9AC4A6B1CCEC@prologj.com> References: <6CAF7E0D-37C7-4377-8AA6-E8A7CE7EF6A0@prologj.com> <4BD64DB8.8040402@pccluster.org> <9EA63B9F-E70C-42CB-BF72-9AC4A6B1CCEC@prologj.com> Message-ID: <4BD678B1.4050109@pccluster.org> 亀山です. (04/27/10 14:11), tsuchiya @ prologj.com Wrote: > On 2010/04/27, at 11:36, Kameyama Toyohisa wrote: >> とりあえず, >> /opt/score/deploy/scbfile myrinet -config:file >> をチェックしてみてください. すみません. 対象ファイルを間違いました. 問題なのは > Unable to open a network configuration file (5): > network='myrinet', attribute='-firmware:file' で firmware:file のほうでした. scorehosts.db のほうを見ると > -firmware:file=/opt/score/share/lanai/lanai.mcp となっていますが, SCore 6.0.2.1 では lanai.mcp は存在しなくて lanaixp.mcp になっていると思います. というわけで. ここを -firmware:file=/opt/score/share/lanai/lanaixp.mcp に変更して scoreboard を立ち上げなおしてみてください. Kameyama Toyohisa From tsuchiya @ prologj.com Tue Apr 27 15:08:37 2010 From: tsuchiya @ prologj.com (=?iso-2022-jp?b?dHN1Y2hpeWEgGyRCIXcbKEIgcHJvbG9nai5jb20=?=) Date: Tue, 27 Apr 2010 15:08:37 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU2LjAuMi4xGyRCJEckThsoQk15?= =?iso-2022-jp?b?cmluZXQbJEIkTkBfRGokSyREJCQkRhsoQg==?= In-Reply-To: <4BD678B1.4050109@pccluster.org> References: <6CAF7E0D-37C7-4377-8AA6-E8A7CE7EF6A0@prologj.com> <4BD64DB8.8040402@pccluster.org> <9EA63B9F-E70C-42CB-BF72-9AC4A6B1CCEC@prologj.com> <4BD678B1.4050109@pccluster.org> Message-ID: 土屋です。 On 2010/04/27, at 14:40, Kameyama Toyohisa wrote: > 問題なのは > >> Unable to open a network configuration file (5): >> network='myrinet', attribute='-firmware:file' > > で firmware:file のほうでした. > > scorehosts.db のほうを見ると > >> -firmware:file=/opt/score/share/lanai/lanai.mcp > > となっていますが, SCore 6.0.2.1 では lanai.mcp は存在しなくて > lanaixp.mcp になっていると思います. > というわけで. ここを > > -firmware:file=/opt/score/share/lanai/lanaixp.mcp > > に変更して scoreboard を立ち上げなおしてみてください. > 修正しました。 クラスタはサーバーホスト、計算ホスト共にリブートさせました。 scstestのエラーメッセージ表示されなくなったのですが、起動してすぐに終了し、 コマンドラインに戻ってしまいます。 ethernetの方はOKです。 。 [root @ custer2 ~]# scstest -network myrinet -config:file=/opt/score/etc/pm-myrinet.conf -firmware:file=/opt/score/share/lanaixp.mcp type=myrinet <--これが表示されてすぐ。 [root @ custer2 ~]# -------------- next part -------------- HTMLの添付ファイルを保管しました... URL: From kameyama @ pccluster.org Tue Apr 27 15:37:21 2010 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Tue, 27 Apr 2010 15:37:21 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU2LjAuMi4xGyRCJEckThsoQk15?= =?iso-2022-jp?b?cmluZXQbJEIkTkBfRGokSyREJCQkRhsoQg==?= In-Reply-To: References: <6CAF7E0D-37C7-4377-8AA6-E8A7CE7EF6A0@prologj.com> <4BD64DB8.8040402@pccluster.org> <9EA63B9F-E70C-42CB-BF72-9AC4A6B1CCEC@prologj.com> <4BD678B1.4050109@pccluster.org> Message-ID: <4BD68621.2020309@pccluster.org> 亀山です. (04/27/10 15:08), tsuchiya @ prologj.com Wrote: > クラスタはサーバーホスト、計算ホスト共にリブートさせました。 > scstestのエラーメッセージ表示されなくなったのですが、起動してすぐに終了し、 > コマンドラインに戻ってしまいます。 rpminit, rpmtest は成功しますでしょうか? http://www.pccluster.org/score_doc/score-6.0.2/html/ja/installation/pm-testmyrinet.html Kameyama Toyohisa From tsuchiya @ prologj.com Tue Apr 27 16:35:42 2010 From: tsuchiya @ prologj.com (=?iso-2022-jp?b?dHN1Y2hpeWEgGyRCIXcbKEIgcHJvbG9nai5jb20=?=) Date: Tue, 27 Apr 2010 16:35:42 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU2LjAuMi4xGyRCJEckThsoQk15?= =?iso-2022-jp?b?cmluZXQbJEIkTkBfRGokSyREJCQkRhsoQg==?= In-Reply-To: <4BD68621.2020309@pccluster.org> References: <6CAF7E0D-37C7-4377-8AA6-E8A7CE7EF6A0@prologj.com> <4BD64DB8.8040402@pccluster.org> <9EA63B9F-E70C-42CB-BF72-9AC4A6B1CCEC@prologj.com> <4BD678B1.4050109@pccluster.org> <4BD68621.2020309@pccluster.org> Message-ID: 土屋です。 On 2010/04/27, at 15:37, Kameyama Toyohisa wrote: > > rpminit, rpmtest は成功しますでしょうか? > http://www.pccluster.org/score_doc/score-6.0.2/html/ja/installation/pm-testmyrinet.html > やってみました。 [root @ custer2 ~]# rpminit custer2comp0 myrinet connect to address 172.20.8.198: Connection refused trying krb4 rsh... connect to address 172.20.8.198: Connection refused trying normal rsh (/usr/bin/rsh) [root @ custer2 ~]# [root @ custer2 ~]# rpmtest custer2comp0 myrinet -dest 0 -ping connect to address 172.20.8.198: Connection refused trying krb4 rsh... connect to address 172.20.8.198: Connection refused trying normal rsh (/usr/bin/rsh) [root @ custer2 ~]# rshでcomp0に入れていますが、何もメッセージが表示されずにコマンドラインに戻ります。 これは接続されているcomp0〜comp7まで順にテストして見ましたが、全て同じ症状です。 -------------- next part -------------- HTMLの添付ファイルを保管しました... URL: From kameyama @ pccluster.org Tue Apr 27 16:58:58 2010 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Tue, 27 Apr 2010 16:58:58 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU2LjAuMi4xGyRCJEckThsoQk15?= =?iso-2022-jp?b?cmluZXQbJEIkTkBfRGokSyREJCQkRhsoQg==?= In-Reply-To: References: <6CAF7E0D-37C7-4377-8AA6-E8A7CE7EF6A0@prologj.com> <4BD64DB8.8040402@pccluster.org> <9EA63B9F-E70C-42CB-BF72-9AC4A6B1CCEC@prologj.com> <4BD678B1.4050109@pccluster.org> <4BD68621.2020309@pccluster.org> Message-ID: <4BD69942.3090106@pccluster.org> 亀山です. (04/27/10 16:35), tsuchiya @ prologj.com Wrote: > [root @ custer2 ~]# rpminit custer2comp0 myrinet > connect to address 172.20.8.198: Connection refused > trying krb4 rsh... > connect to address 172.20.8.198: Connection refused > trying normal rsh (/usr/bin/rsh) > [root @ custer2 ~]# > [root @ custer2 ~]# rpmtest custer2comp0 myrinet -dest 0 -ping > connect to address 172.20.8.198: Connection refused > trying krb4 rsh... > connect to address 172.20.8.198: Connection refused > trying normal rsh (/usr/bin/rsh) > [root @ custer2 ~]# > > rshでcomp0に入れていますが、何もメッセージが表示されずにコマンドラインに戻ります。 何も書かれないと何が起こっているかわかりませんね... 環境変数 PM_DEBUG を 3 に設定して実行してみてください. Kameyama Toyohisa From tsuchiya @ prologj.com Tue Apr 27 17:28:02 2010 From: tsuchiya @ prologj.com (=?iso-2022-jp?b?dHN1Y2hpeWEgGyRCIXcbKEIgcHJvbG9nai5jb20=?=) Date: Tue, 27 Apr 2010 17:28:02 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU2LjAuMi4xGyRCJEckThsoQk15?= =?iso-2022-jp?b?cmluZXQbJEIkTkBfRGokSyREJCQkRhsoQg==?= In-Reply-To: <4BD69942.3090106@pccluster.org> References: <6CAF7E0D-37C7-4377-8AA6-E8A7CE7EF6A0@prologj.com> <4BD64DB8.8040402@pccluster.org> <9EA63B9F-E70C-42CB-BF72-9AC4A6B1CCEC@prologj.com> <4BD678B1.4050109@pccluster.org> <4BD68621.2020309@pccluster.org> <4BD69942.3090106@pccluster.org> Message-ID: 土屋です。 On 2010/04/27, at 16:58, Kameyama Toyohisa wrote: > 亀山です. > > (04/27/10 16:35), tsuchiya @ prologj.com Wrote: >> [root @ custer2 ~]# rpminit custer2comp0 myrinet >> connect to address 172.20.8.198: Connection refused >> trying krb4 rsh... >> connect to address 172.20.8.198: Connection refused >> trying normal rsh (/usr/bin/rsh) >> [root @ custer2 ~]# >> [root @ custer2 ~]# rpmtest custer2comp0 myrinet -dest 0 -ping >> connect to address 172.20.8.198: Connection refused >> trying krb4 rsh... >> connect to address 172.20.8.198: Connection refused >> trying normal rsh (/usr/bin/rsh) >> [root @ custer2 ~]# >> >> rshでcomp0に入れていますが、何もメッセージが表示されずにコマンドラインに戻ります。 > > 何も書かれないと何が起こっているかわかりませんね... > 環境変数 PM_DEBUG を 3 に設定して実行してみてください. > やって見ました。(printenvでPM_DEBUG=3の設定がありことは確認済み) でも何も表示されません。 ループバックテストがダメなのですから、トラブルシューティングの「Pminitが原因の失敗」のいずれかでしょう。 もう少し調べてみます。 ありがとうございました。 -------------- next part -------------- HTMLの添付ファイルを保管しました... URL: