From ishikawa @ is.s.u-tokyo.ac.jp Thu Dec 1 10:21:05 2005 From: ishikawa @ is.s.u-tokyo.ac.jp (Yutaka Ishikawa) Date: Thu, 01 Dec 2005 10:21:05 +0900 (JST) Subject: [SCore-users-jp] =?iso-2022-jp?b?UEMbJEIlLyVpJTklPyU3JXMbKEI=?= =?iso-2022-jp?b?GyRCJV0lOCUmJWAkTiQ0MEZGYiFKGyhCMTIbJEI3bhsoQjE1?= =?iso-2022-jp?b?GyRCRnwhQRsoQjE2GyRCRnwhSzt2QTA/PTl+ITpAWhsoQjEy?= =?iso-2022-jp?b?GyRCN24bKEIxMhskQkZ8GyhC?= In-Reply-To: <20051108.191536.278732644.ishikawa@is.s.u-tokyo.ac.jp> References: <20051108.191536.278732644.ishikawa@is.s.u-tokyo.ac.jp> Message-ID: <20051201.102105.939825356.ishikawa@is.s.u-tokyo.ac.jp> 皆様、 事前申込〆切が迫ってきましたので、改めて、第5回PCクラスタシンポジウム 開催のご案内をお送りします。 事前登録の〆切は、12月12日18:00となっています。お早めにご登録下さい。 石川 --------------------------------------------------------------------------------- 第5回PCクラスタシンポジウム開催のご案内 主催:PCクラスタコンソーシアム http://www.pccluster.org/ 協賛:独立行政法人 理化学研究所(予定) 日程:2005年12月15日(木)〜16日(金) 事前登録〆切:12月12日(月) 18:00 問い合わせ:sec @ pccluster.org 開催趣旨 2001年10月に発足したPCクラスタコンソーシアムは、日本発の高性能クラスタ システムソフトウェアSCoreの開発・支援を通して国内外のPCクラスタ市場の 発展に貢献しております。SCoreの開発を開始してから10年が経ち、今や、計 算センタによる2048台のCPUから構成される大規模PCクラスタやグリッドコン ピューティングにおけるグリッド構成要素としてのPCクラスタに SCoreクラス タシステムソフトウェアが利用されています。 PCクラスタビジネスを展開している国内の主要な企業およびユーザが一堂に会 するPCクラスタシンポジウムでは、SCoreの最新情報のみならず、PCクラスタ プラットフォームの最新情報をお届けし、また、ユーザの皆様との交流の場を 設けております。 1日目にSCoreの概要ならびに導入方法、「実効性能追求型超並列クラスタ PACS-CSの概要」と題して筑波大学 朴教授による招待講演があります。そして、 パネル討論形式で、SCore開発の現状報告をすると共に今後の開発に関して議 論します。 2日目には会員企業によるPCクラスタ導入事例など、PCクラスタに関する最新 の動向をお伝えします。また、「PCクラスタの将来展望 −アプリケーション ユーザからの視点−」と題して大学・研究機関でご活躍されている方々をパネ リストにお招きし、パネル討論を行ないます。 なお、1日目の午後、2日目は併設して企業展示が行なわれます。 皆様の御参加をお待ちしております。 12月15日(木) 日本科学未来館 10:30 -- 11:45 SCore入門 原田 浩 (日本ヒューレット・パッカード株式会社) 概要:SCore5.8機能の概要と導入方法の紹介します。 13:30 -- 14:30 招待講演 「実効性能追求型超並列クラスタPACS-CSの概要」 朴 泰祐(筑波大学) 概要: 筑波大学計算科学研究センターで開発中の超並列クラスタPACS-CSは、シング ルプロセッサノードとGigabit Ethernetトランキングによる3次元ハイパクロス バ網により、特にバンド幅を要求するアプリケーションに即した構成を持つ。シ ステムはLinux+SCoreに加え、新たに開発された3次元ハイパクロスバ網用PMドラ イバによって運用される。本講演ではPACS-CSの概要について述べる。 14:30 -- 15:00 Break 15:00 -- 16:30 パネル討論:「SCore 6.0 & Omni OpenMP 開発状況および今後の開発」 司会: 石川 裕(東京大学) パネリスト: 佐藤 三久(筑波大学) 堀 敦史(Allinea Software) 住元 真司(株式会社富士通研究所) 清水 正明(株式会社日立製作所) 亀山 豊久(PCクラスタコンソーシアム) 概要: 開発部会メンバによるSCore 6.0およびOmni OpenMPの開発状況を 紹介し、今後の開発に関して議論していく。 SCore 6.0では、Intel MPI、Open MPI、マルチスレッド対応チェックポイント 機能を提供する予定である。 16:30 -- 17:30 企業展示 17:30 -- 懇親会(参加費2,000円) * 13:00〜17:30 併設して企業展示を行ないます。 16日(金) 一般セッション 9:30- 受付開始 10:00-10:45 SCore の節目 - SCore 10 年 石川 裕(東京大学) 10:45-11:45 PCクラスタプラットフォームの動向 o 10:45-11:15 AMDプロセッサの最新情報ならびにクラスタに関する取り組みについて 早川 洋一 (日本AMD株式会社 アジア・パシフィック カスタマーサポートサービス本部 ソフトウエアエキスパート) o 11:15-11:45 HPC用インテル・プラットフォーマライゼーション 池井 満 (インテル株式会社 分散並列技術部 シニア・アプリケーション・エンジニア) 13:00-15:00 メンバ企業によるSCoreクラスタ導入事例・応用事例・今後の取り組み 発表予定企業 o 株式会社ソフトウェアクレイドル o アルテアエンジニアリング株式会社 o 日本電気株式会社 o 株式会社富士通 o 株式会社日立製作所 o 日本ヒューレット・パッカード株式会社 o 株式会社アックス 15:00-16:30 パネル討論: 「PCクラスタの将来展望 −アプリケーションユーザからの視点−」 司会:姫野 龍太郎(理化学研究所) パネリスト(あいうえお順): 岡澤 重信(広島大学) 小西 史一(理化学研究所ゲノム科学総合研究センター) 白崎 実(横浜国立大学) 廣安 知之(同志社大学) 真鍋 篤(高エネルギー加速器研究機構) 概要: PCクラスタユーザをパネリストに招き、高エネルギー物理、バイオ、   遺伝的アルゴリズム、熱流体解析、衝突解析などの分野でPCクラスタが どのように使われ、どの程度の問題が解けるようになったのか、問題サイズ と性能面について紹介して頂く。さらに、PCクラスタの利用勝手や現在直面 している問題点について議論し、今後のPCクラスタ発展の方向を展望する。 *10:00 〜 16:00 併設して企業展示を行ないます。 From wakai @ eri.u-tokyo.ac.jp Thu Dec 1 11:16:41 2005 From: wakai @ eri.u-tokyo.ac.jp (WAKAI Atsushi) Date: Thu, 1 Dec 2005 11:16:41 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U2NvcmUbJEIkck1RJCQkPxsoQlBD?= =?iso-2022-jp?b?GyRCJS8laSU5JT8hPCROQF9EakpROTkbKEI=?= Message-ID: <200512010214.jB12EEIq015267@kamo.eri.u-tokyo.ac.jp> ご担当者様 以下の件につきまして、ご回答頂きたくメール致しました。 ■用件:ユーザーアカウントの追加後にそのアカウントを有効(?)にする方法 ■現況:ユーザーアカウントを追加したものの、PCクラスターにログインできない (パスワード誤記可能性の有無は確認済み) ■環境:  1.Linux版Scoreをインストールしたサーバー(Red Hat Linux)でコントロールして いるPCクラスター  2.シングルユーザーモード 以上、宜しくお願い致します。 ///////////////////////////////////////////////// 若井 淳 東京大学大学院 工学系研究科 社会基盤学専攻 住所:東京都文京区弥生1-1-1 東京大学地震研究所 426 TEL:03-5841-5756 E-mail:wakai @ eri.u-tokyo.ac.jp //////////////////////////////////////////////// From kameyama @ pccluster.org Fri Dec 2 10:26:30 2005 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Fri, 02 Dec 2005 10:26:30 +0900 Subject: [SCore-users-jp] =?ISO-2022-JP?B?U2NvcmUbJEIkck1RJCQbKEI=?= =?ISO-2022-JP?B?GyRCJD8bKEJQQxskQiUvJWklOSU/ITwkTkBfRGpKUTk5GyhC?= In-Reply-To: Your message of "Thu, 01 Dec 2005 11:16:41 JST." <200512010214.jB12EEIq015267@kamo.eri.u-tokyo.ac.jp> Message-ID: <20051202012630.9F9EE21EF52@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <200512010214.jB12EEIq015267 @ kamo.eri.u-tokyo.ac.jp> "WAKAI Atsushi" wrotes: > ■用件:ユーザーアカウントの追加後にそのアカウントを有効(?)にする方法 > ■現況:ユーザーアカウントを追加したものの、PCクラスターにログインできない > (パスワード誤記可能性の有無は確認済み) どのような手順でアカウントを追加したのでしょうか? SCore program を使用するためには, program を起動するホストの ほかに compute host にも login できるように設定できる必要があります. 少なくても, scrun を実行するホストだけで useradd を行なっただけでは 不十分です. ここで問題になるのは, その cluster (を含むそのサイト?) でのユーザの管理方法です. もし NIS を使用しているのでしたら, NIS master server で NIS の更新を行なう必要があります. NIS を使用していなくて, 個々の host で個別に user を 管理しているのでしたら, それぞれの host の /etc/passwd と /etc/shadow を更新する必要があります. from Kameyama Toyohisa From inagaki @ ueda.info.waseda.ac.jp Sat Dec 3 02:45:47 2005 From: inagaki @ ueda.info.waseda.ac.jp (Ryoichi INAGAKI) Date: Sat, 03 Dec 2005 02:45:47 +0900 (JST) Subject: [SCore-users-jp] Is it a MPICH-SCore problem? Message-ID: <20051203.024547.193685152.inagaki@ueda.info.waseda.ac.jp> 早稲田大学の稲垣と申します。 SCore 5.8.3 (Opteron, Fedora Core 4) において、あるプログラムを並列化 しようとしているのですが、手始めに MPI_Init と MPI_Finalize のみをプロ グラムに追加して(複数台でまったく同じプログラムを動かしているだけ)、 SCore 5.8.3 でコンパイル・実行したところ、性能が大幅に低下してしまいま した。 $ hoge data.txt という形式でデータファイルを処理させるプログラムなのですが scrun -nodes=1 ./hoge data.txt -> 単体実行時と同じくらいの実行時間 scrun -nodes=4 ./hoge data.txt -> 上記の 3倍 ぐらいの実行時間 となってしまいます。ノード数は増やしても減らしても複数台であれば必ずこ れぐらい性能が低下してしまいます。 同じプログラムを素の MPICH 1.2.7p1 でコンパイル・実行したところ、上述 の性能低下は発生せず、SCore 5.8.2 (Pentium-III, Fedora Core 1) でコン パイル・実行しても、このような性能低下は発生しませんでした。 これが SCore 5.8.3 の MPICH-SCore に起因する問題かもよくわかっていない のですが、もし心当たりのある情報や、確認すべき事項などありましたらご教 授いただければと思います。 _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ 早稲田大学大学院 理工学研究科 情報・ネットワーク専攻 上田研究室 D1 稲垣 良一 _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ From tabata21cm @ yahoo.co.jp Sun Dec 4 21:38:32 2005 From: tabata21cm @ yahoo.co.jp (makiko tabata) Date: Sun, 4 Dec 2005 21:38:32 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?GyRCPzc3Vzs7JU4hPCVJREkbKEI=?= =?iso-2022-jp?b?GyRCMkMlKCVpITwkSyREJCQkRhsoQg==?= Message-ID: <002d01c5f8cf$a3300880$0b01a8c0@makitbt> 亀山様 PCClusterConsortiumの皆様へ 田畑と申します。 FedoraCoreでSCore5.6.1を用いたPCクラスタ(管理ノード1台+計算ノード2台)を製 作しました。 このPCクラスタに新たにもう一台計算ノードを追加したいと思います。 しかし、エラーが出てうまくいきません。 以下に詳細を記します。 「PCClusterに新しいComputeHostを追加」について質問したいことがあります。 http://www.pccluster.org/score/dist/score-5.4.0/html/ja/installation/eit.htm l#additional 上記のHPを参考に、追加を行いました。 /etc/hostsは以下のような設定にしました。 127.0.0.1 padia.pccluster.org padia localhost.localdomain localhost 192.168.1.161 padia.pccluster.org padia 192.168.1.162 node1.pccluster.org node1 192.168.1.163 node2.pccluster.org node2 192.168.1.164 node3.pccluster.org node3 /opt/score/bin/eitでEITを立ち上げ設定を行いました。 Host Informationセクションで、新しいcompute hostsの名前を登録することはでき たのですが、 cannot resolve the host node3.pccluster.org IP address というエラーメッセージが出てきました。 ここでは、OKを押してNEXTで次にいけました。 次のCluster Network Configration の段になって 既存のpadiaというグループのままNextを押し、 The following Compute Hosts have been installed: 0 1 Do you want to reconfigure them? if you are adding new compute hosts,please click the "no" button. このメッセージが出てきたらNoを押します。 すると以下のエラーメッセージが出てきます。 Error:can't read "ip Table(node3.pccluster.org)":no such element in array OK Skip Messages Stack Trace それぞれのボタンを押した後の動作は以下のよう になっています。 | | | | | |___以下のエラーメッセージが出るだけ。 | |__ウィンドウ閉じるだけ ウィンドウ閉じるだけ Stack Trace can't read "ipTable(node3.pccluster.org)": no such element in array while executing "MakeKSCFG $fd $i $ipTable($parameter(scoreHost$i)) $parameter(scoreHost$i)" (procedure "ConfigComputeHosts" line 93) invoked from within "ConfigComputeHosts" invoked from within ".groupwindow.next invoke" ("uplevel" body line 1) invoked from within "uplevel #0 [list $w invoke]" (procedure "tkButtonUp" line 7) invoked from within "tkButtonUp .groupwindow.next " (command bound to event) 追加のノードをインストールできないでいます。 なるべく、他の計算ホストはそのままの状態で、計算ホストを新たに一台追加するだ けにしたいのですが、 何か御存知でしたら御指導願います。 -------------- next part -------------- HTMLの添付ファイルを保管しました... URL: From kameyama @ pccluster.org Mon Dec 5 08:56:53 2005 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Mon, 05 Dec 2005 08:56:53 +0900 Subject: [SCore-users-jp] =?ISO-2022-JP?B?GyRCPzc3Vzs7JU4hPCVJGyhC?= =?ISO-2022-JP?B?GyRCREkyQyUoJWkhPCRLJEQkJCRGGyhC?= In-Reply-To: Your message of "Sun, 04 Dec 2005 21:38:32 JST." <002d01c5f8cf$a3300880$0b01a8c0@makitbt> Message-ID: <20051204235653.7395121EF52@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <002d01c5f8cf$a3300880$0b01a8c0 @ makitbt> "makiko tabata" wrotes: > 上記のHPを参考に、追加を行いました。 > /etc/hostsは以下のような設定にしました。 > > 127.0.0.1 padia.pccluster.org padia localhost.localdomain localhost > 192.168.1.161 padia.pccluster.org padia > 192.168.1.162 node1.pccluster.org node1 > 192.168.1.163 node2.pccluster.org node2 > 192.168.1.164 node3.pccluster.org node3 > > /opt/score/bin/eitでEITを立ち上げ設定を行いました。 > Host Informationセクションで、新しいcompute hostsの名前を登録することはでき > たのですが、 > cannot resolve the host node3.pccluster.org IP address > というエラーメッセージが出てきました。 > ここでは、OKを押してNEXTで次にいけました。 多分, ここが問題になっているのだと思います. その host を /etc/hosts に追加するだけでなく, NIS にも 登録する必要があると思います. server host で root で # cd /var/yp # make を行なってください. from Kameyama Toyohisa From kameyama @ pccluster.org Mon Dec 5 13:00:42 2005 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Mon, 05 Dec 2005 13:00:42 +0900 Subject: [SCore-users-jp] Is it a MPICH-SCore problem? In-Reply-To: Your message of "Sat, 03 Dec 2005 02:45:47 JST." <20051203.024547.193685152.inagaki@ueda.info.waseda.ac.jp> Message-ID: <20051205040042.3E0DE21EF52@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <20051203.024547.193685152.inagaki @ ueda.info.waseda.ac.jp> Ryoichi INAGAKI wrotes: > SCore 5.8.3 (Opteron, Fedora Core 4) において、あるプログラムを並列化 > しようとしているのですが、手始めに MPI_Init と MPI_Finalize のみをプロ > グラムに追加して(複数台でまったく同じプログラムを動かしているだけ)、 > SCore 5.8.3 でコンパイル・実行したところ、性能が大幅に低下してしまいま > した。 > > $ hoge data.txt > > という形式でデータファイルを処理させるプログラムなのですが > > scrun -nodes=1 ./hoge data.txt -> 単体実行時と同じくらいの実行時間 > scrun -nodes=4 ./hoge data.txt -> 上記の 3倍 ぐらいの実行時間 > > となってしまいます。ノード数は増やしても減らしても複数台であれば必ずこ > れぐらい性能が低下してしまいます。 どの部分の時間を測定しているのか? (起動してから終了するまで? ファイルの処理を行なっている時間?) 実行時間はどのくらいか? (3 秒の 3 倍と 3 時間の 3 倍だと意味がかなり違いますよね?) によって, 意味が違ってきそうなのですが... from Kameyama Toyohisa From kato @ hpc.cs.ritsumei.ac.jp Mon Dec 5 16:12:06 2005 From: kato @ hpc.cs.ritsumei.ac.jp (kato) Date: Mon, 5 Dec 2005 16:12:06 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?b21jYxskQiRHJE4lMyVzJVEbKEI=?= =?iso-2022-jp?b?GyRCJSQlaxsoQg==?= Message-ID: <000901c5f96b$333d27f0$6fa418ac@birdie> 立命館大学の加藤と申します。 MPEG Software Simulation Groupのmpeg2エンコーダソフトをOpenMPを用いて並列化 しようとしているのですが、 コンパイルすると以下のようなエラーがでてコンパイルできません omcc -omniconfig=scash -c -o stats.o stats.c Compiling 'stats.c'... Exception in thread "main" java.lang.NullPointerException at exc.object.Xcons.PointerRef(Xcons.java:126) at exc.object.Ident.Ref(Ident.java:80) at shm.relocateGlobalData.rewriteExpr(relocateGlobalData.java:281) at shm.relocateGlobalData.rewriteGlobalExpr(relocateGlobalData.java:261) at shm.relocateGlobalData.doDef(relocateGlobalData.java:40) at exc.object.XobjectDefEnv.iterateDef(XobjectDefEnv.java:62) at shm.shmcc.run(shmcc.java:72) at exc.util.ccDriver.compile(ccDriver.java:264) at exc.util.ccDriver.run(ccDriver.java:203) at shm.shmcc.main(shmcc.java:18) コンパイルはMakefileをomccに書き直しました。その他のソースファイルはそのまま で手を加えていません。 18個あるC言語ソースファイルのうち6個このようなエラーがでて.oファイルが作成 されません。 原因が分かりましたら教えていただけないでしょうか?よろしくお願いします。 *立命館大学理工学部 高性能計算研究室 *加藤 寛暁 kato @ hpc.cs.ritsumei.ac.jp -------------- next part -------------- HTMLの添付ファイルを保管しました... URL: From msato @ cs.tsukuba.ac.jp Mon Dec 5 16:48:28 2005 From: msato @ cs.tsukuba.ac.jp (Mitsuhisa Sato) Date: Mon, 05 Dec 2005 16:48:28 +0900 (JST) Subject: [SCore-users-jp] =?iso-2022-jp?B?b21jYxskQiRHJE4lMyVzJVElJCVrGyhC?= In-Reply-To: <000901c5f96b$333d27f0$6fa418ac@birdie> References: <000901c5f96b$333d27f0$6fa418ac@birdie> Message-ID: <20051205.164828.576048830.msato@hpcs.cs.tsukuba.ac.jp> 加藤 様、 開発者の佐藤です。 ソースをおくっていただけませんか? なお、他の方に迷惑をかけるので、MLではなくて、個人のメールにお送りくだ さい。 さとう。 From: "kato" Subject: [SCore-users-jp] omccでのコンパイル Date: Mon, 5 Dec 2005 16:12:06 +0900 > 立命館大学の加藤と申します。 > > MPEG Software Simulation Groupのmpeg2エンコーダソフトをOpenMPを用いて並列化 > しようとしているのですが、 > コンパイルすると以下のようなエラーがでてコンパイルできません > > omcc -omniconfig=scash -c -o stats.o stats.c > Compiling 'stats.c'... > Exception in thread "main" java.lang.NullPointerException > at exc.object.Xcons.PointerRef(Xcons.java:126) > at exc.object.Ident.Ref(Ident.java:80) > at shm.relocateGlobalData.rewriteExpr(relocateGlobalData.java:281) > at > shm.relocateGlobalData.rewriteGlobalExpr(relocateGlobalData.java:261) > at shm.relocateGlobalData.doDef(relocateGlobalData.java:40) > at exc.object.XobjectDefEnv.iterateDef(XobjectDefEnv.java:62) > at shm.shmcc.run(shmcc.java:72) > at exc.util.ccDriver.compile(ccDriver.java:264) > at exc.util.ccDriver.run(ccDriver.java:203) > at shm.shmcc.main(shmcc.java:18) > > コンパイルはMakefileをomccに書き直しました。その他のソースファイルはそのまま > で手を加えていません。 > 18個あるC言語ソースファイルのうち6個このようなエラーがでて.oファイルが作成 > されません。 > 原因が分かりましたら教えていただけないでしょうか?よろしくお願いします。 > > *立命館大学理工学部 高性能計算研究室 > *加藤 寛暁 > kato @ hpc.cs.ritsumei.ac.jp From inagaki @ ueda.info.waseda.ac.jp Mon Dec 5 16:53:25 2005 From: inagaki @ ueda.info.waseda.ac.jp (Ryoichi INAGAKI) Date: Mon, 05 Dec 2005 16:53:25 +0900 (JST) Subject: [SCore-users-jp] Re: Is it a MPICH-SCore problem? In-Reply-To: <20051205040042.3E0DE21EF52@neal.il.is.s.u-tokyo.ac.jp> References: <20051203.024547.193685152.inagaki@ueda.info.waseda.ac.jp> <20051205040042.3E0DE21EF52@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <20051205.165325.193701899.inagaki@ueda.info.waseda.ac.jp> 亀山様 稲垣です。 On Mon, 05 Dec 2005 13:00:42 +0900, kameyama @ pccluster.org wrote: > In article <20051203.024547.193685152.inagaki @ ueda.info.waseda.ac.jp> Ryoichi INAGAKI wrotes: > > SCore 5.8.3 (Opteron, Fedora Core 4) において、あるプログラムを並列化 > > しようとしているのですが、手始めに MPI_Init と MPI_Finalize のみをプロ > > グラムに追加して(複数台でまったく同じプログラムを動かしているだけ)、 > > SCore 5.8.3 でコンパイル・実行したところ、性能が大幅に低下してしまいま > > した。 > > どの部分の時間を測定しているのか? > (起動してから終了するまで? ファイルの処理を行なっている時間?) > 実行時間はどのくらいか? > (3 秒の 3 倍と 3 時間の 3 倍だと意味がかなり違いますよね?) > によって, 意味が違ってきそうなのですが... プログラムの起動から終了まで測定しています。他のいくつかのプログラムで も試したのですが、逐次実行で 3 秒かかるプログラムだと 7〜8 秒, 20 秒か かるプログラムだと 50 秒,1分かかるプログラムだと 3 分といった具合いに 実行時間が延びてしまいます。 使用しているのはデュアルコア Opteron なのですが、 scrun -nodes=1x2 ./hoge data.txt でも scrun -nodes=2x1 ./hoge data.txt でも同じぐらいの実行時間を要します。 台数が何台であっても実行時間に変化がないので、MPICH-SCore というよりも SCore のランタイムで何かオーバーヘッドが発生しているのかな、とつい思っ ている次第です。 # Fedora Core 4 より Fedora Core 3 の方が無難でしょうか? From kameyama @ pccluster.org Mon Dec 5 17:23:30 2005 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Mon, 05 Dec 2005 17:23:30 +0900 Subject: [SCore-users-jp] Re: Is it a MPICH-SCore problem? In-Reply-To: Your message of "Mon, 05 Dec 2005 16:53:25 JST." <20051205.165325.193701899.inagaki@ueda.info.waseda.ac.jp> Message-ID: <20051205082330.486A321EF52@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <20051205.165325.193701899.inagaki @ ueda.info.waseda.ac.jp> Ryoichi INAGAKI wrotes: > On Mon, 05 Dec 2005 13:00:42 +0900, > kameyama @ pccluster.org wrote: > > > In article <20051203.024547.193685152.inagaki @ ueda.info.waseda.ac.jp> Ryoic > hi INAGAKI wrotes: > > > SCore 5.8.3 (Opteron, Fedora Core 4) において、あるプログラムを並列化 > > > しようとしているのですが、手始めに MPI_Init と MPI_Finalize のみをプロ > > > グラムに追加して(複数台でまったく同じプログラムを動かしているだけ)、 > > > SCore 5.8.3 でコンパイル・実行したところ、性能が大幅に低下してしまいま > > > した。 > > > > どの部分の時間を測定しているのか? > > (起動してから終了するまで? ファイルの処理を行なっている時間?) > > 実行時間はどのくらいか? > > (3 秒の 3 倍と 3 時間の 3 倍だと意味がかなり違いますよね?) > > によって, 意味が違ってきそうなのですが... > > プログラムの起動から終了まで測定しています。他のいくつかのプログラムで > も試したのですが、逐次実行で 3 秒かかるプログラムだと 7〜8 秒, 20 秒か > かるプログラムだと 50 秒,1分かかるプログラムだと 3 分といった具合いに > 実行時間が延びてしまいます。 起動から終了までですと, 以下の overhead が考えられます. 1, scout 環境にいないのなら scout を起動する 2. scored を起動する 3. PM の初期化を行なう 4. program を compute host にコピーする. 5. プログラムの実行が終了し, scored を停止する これらは基本的には program の実行時間とは無関係なはずです. (4. はプログラムのサイズに関係しますけど...) あと 実行時では 6. system call を trap しているので, そのための overhead 7. memory limit などを監視するための overhead がありますが, 多分, そんなに大きくはないと思います. 7. は default で single user mode で 10 秒です. (scrun の -ts オプションで変更できます.) 6. は compile のときに -noscwrap オプションをつければ回避できます. > 使用しているのはデュアルコア Opteron なのですが、 Fedora Core 4 の x86-64 のほうでしょうか? それとも i386 のほうでしょうか? 使用している PM デバイスは ethernet でしょうか? > # Fedora Core 4 より Fedora Core 3 の方が無難でしょうか? テストしているのが Fedora Core 3 なので, SCore 的には Fedora Core 3 のほうが無難ですが. デュアルコア Opteron だと install できるか どうかのほうが問題になりそうな... from Kameyama Toyohisa From inagaki @ ueda.info.waseda.ac.jp Mon Dec 5 18:58:37 2005 From: inagaki @ ueda.info.waseda.ac.jp (Ryoichi INAGAKI) Date: Mon, 05 Dec 2005 18:58:37 +0900 (JST) Subject: [SCore-users-jp] Re: Is it a MPICH-SCore problem? In-Reply-To: <20051205082330.486A321EF52@neal.il.is.s.u-tokyo.ac.jp> References: <20051205.165325.193701899.inagaki@ueda.info.waseda.ac.jp> <20051205082330.486A321EF52@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <20051205.185837.193695604.inagaki@ueda.info.waseda.ac.jp> 亀山様 稲垣です。情報ありがとうございます。 On Mon, 05 Dec 2005 17:23:30 +0900, kameyama @ pccluster.org wrote: > 6. system call を trap しているので, そのための overhead > 7. memory limit などを監視するための overhead > がありますが, 多分, そんなに大きくはないと思います. > 7. は default で single user mode で 10 秒です. > (scrun の -ts オプションで変更できます.) > 6. は compile のときに -noscwrap オプションをつければ回避できます. 両者とも試してみましたが、状況は変わりませんでした。 scrun の -node 指定が 1 ノードかそれ以上かで実行するコードが違っていた りするのでしょうか。 > > 使用しているのはデュアルコア Opteron なのですが、 > > Fedora Core 4 の x86-64 のほうでしょうか? > それとも i386 のほうでしょうか? > 使用している PM デバイスは ethernet でしょうか? ハードウェアは hp Proliant DL145 G2 を使用しており、x86-64 の Fedora Core 4 を使用しています。 SCore はソースからコンパイルしたのですが、 score-src/SCore/rc 以下で x86_64-fedoracore3-linux2_6 をコピーして x86_64-fedoracore4-linux2_6 として使っています。 PM デバイスは ethernet(tg3) と shmem を使用しています。 > > # Fedora Core 4 より Fedora Core 3 の方が無難でしょうか? > > テストしているのが Fedora Core 3 なので, SCore 的には Fedora Core 3 > のほうが無難ですが. デュアルコア Opteron だと install できるか > どうかのほうが問題になりそうな... 結構、SCore 内部で CPU Specific な命令を使っていたりするのでしょうか... _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ 早稲田大学大学院 理工学研究科 情報・ネットワーク専攻 上田研究室 D1 稲垣 良一 _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ From kameyama @ pccluster.org Mon Dec 5 19:51:32 2005 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Mon, 05 Dec 2005 19:51:32 +0900 Subject: [SCore-users-jp] Re: Is it a MPICH-SCore problem? In-Reply-To: Your message of "Mon, 05 Dec 2005 18:58:37 JST." <20051205.185837.193695604.inagaki@ueda.info.waseda.ac.jp> Message-ID: <20051205105132.D949021EF52@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <20051205.185837.193695604.inagaki @ ueda.info.waseda.ac.jp> Ryoichi INAGAKI wrotes: > On Mon, 05 Dec 2005 17:23:30 +0900, > kameyama @ pccluster.org wrote: > > > 6. system call を trap しているので, そのための overhead > > 7. memory limit などを監視するための overhead > > がありますが, 多分, そんなに大きくはないと思います. > > 7. は default で single user mode で 10 秒です. > > (scrun の -ts オプションで変更できます.) > > 6. は compile のときに -noscwrap オプションをつければ回避できます. > > 両者とも試してみましたが、状況は変わりませんでした。 > scrun の -node 指定が 1 ノードかそれ以上かで実行するコードが違っていた > りするのでしょうか。 基本的にはコードは同じです. ただ, PM の初期化などを行なうかどうかが違ってくるだけだと思います. (program の起動前とか, MPI_init() あたりだけだと思いますけど...) > > > # Fedora Core 4 より Fedora Core 3 の方が無難でしょうか? > > > > テストしているのが Fedora Core 3 なので, SCore 的には Fedora Core 3 > > のほうが無難ですが. デュアルコア Opteron だと install できるか > > どうかのほうが問題になりそうな... > > 結構、SCore 内部で CPU Specific な命令を使っていたりするのでしょうか... CPU 依存のものは若干はありますが, かなり限定されていると思います. (spinlock とか, SCore-D の記述言語 MPC++ での setjump/longjump とか...) むしろ, compiler の変更 (Fedora Core 4 は gcc 4) のほうが 影響は大きいかも知れません. from Kameyama Toyohisa From tabata21cm @ yahoo.co.jp Mon Dec 5 23:51:22 2005 From: tabata21cm @ yahoo.co.jp (makiko tabata) Date: Mon, 5 Dec 2005 23:51:22 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?GyRCPzc3Vzs7JU4hPCVJREkbKEI=?= =?iso-2022-jp?b?GyRCMkMlKCVpITwkSyREJCQkRhsoQg==?= Message-ID: <001901c5f9ab$5c6390c0$0b01a8c0@makitbt> 亀山様 PCClusterConsortiumの皆様へ 田畑と申します。 FedoraCoreでSCore5.6.1を用いたPCクラスタ(管理ノード1台+計算ノード2台)を製 作しました。 このPCクラスタに新たにもう一台計算ノードを追加したいと思います。 しかし、エラーが出てうまくいきません。 以下に詳細を記します。 「PCClusterに新しいComputeHostを追加」について質問したいことがあります。 http://www.pccluster.org/score/dist/score-5.4.0/html/ja/installation/eit.htm l#additional 上記のHPを参考に、追加を行いました。 /etc/hostsは以下のような設定にしました。 127.0.0.1 padia.pccluster.org padia localhost.localdomain localhost 192.168.1.161 padia.pccluster.org padia 192.168.1.162 node1.pccluster.org node1 192.168.1.163 node2.pccluster.org node2 192.168.1.164 node3.pccluster.org node3 /opt/score/bin/eitでEITを立ち上げ設定を行いました。 Host Informationセクションで、新しいcompute hostsの名前を登録することはでき たのですが、 cannot resolve the host node3.pccluster.org IP address というエラーメッセージが出てきました。 ここでは、OKを押してNEXTで次にいけました。 次のCluster Network Configration の段になって 既存のpadiaというグループのままNextを押し、 The following Compute Hosts have been installed: 0 1 Do you want to reconfigure them? if you are adding new compute hosts,please click the "no" button. このメッセージが出てきたらNoを押します。 すると以下のエラーメッセージが出てきます。 Error:can't read "ip Table(node3.pccluster.org)":no such element in array OK Skip Messages Stack Trace それぞれのボタンを押した後の動作は以下のよう になっています。 | | | | | |___以下のエラーメッセージが出るだけ。 | |__ウィンドウ閉じるだけ ウィンドウ閉じるだけ Stack Trace can't read "ipTable(node3.pccluster.org)": no such element in array while executing "MakeKSCFG $fd $i $ipTable($parameter(scoreHost$i)) $parameter(scoreHost$i)" (procedure "ConfigComputeHosts" line 93) invoked from within "ConfigComputeHosts" invoked from within ".groupwindow.next invoke" ("uplevel" body line 1) invoked from within "uplevel #0 [list $w invoke]" (procedure "tkButtonUp" line 7) invoked from within "tkButtonUp .groupwindow.next " (command bound to event) 追加のノードをインストールできないでいます。 なるべく、他の計算ホストはそのままの状態で、計算ホストを新たに一台追加するだ けにしたいのですが、 何か御存知でしたら御指導願います。 -------------- next part -------------- HTMLの添付ファイルを保管しました... URL: From f-2a @ hotmail.co.jp Wed Dec 7 17:00:01 2005 From: f-2a @ hotmail.co.jp (=?iso-2022-jp?B?GyRCPj5CPBsoQiAbJEJCczpIGyhC?=) Date: Wed, 07 Dec 2005 17:00:01 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NPVVQbJEIlRiU5JUgkTiUoGyhC?= =?iso-2022-jp?b?GyRCJWkhPBsoQg==?= Message-ID: 熊本電波高専の松村と申します。 皆様お世話になります。 現在、「PC Cluster Consortium」の「RPMファイルによるインストール」を参考にし ながらFedora Core 1 + Score 5.8.2の組合せでテスト用のPCクラスタを構築してい ます。Scoreをインストールした後、システムテストの手順にしたがってテストを行 いました。その結果、SCOUTテストで以下のようなエラーが出て先に進めません。 [root @ server root]# scorehosts -l -g pcc comp0.pccluster.org 1 host found. [root @ server root]# sceptic -v -g pcc comp0.pccluster.org: ping FAILED Retry 1 comp0.pccluster.org: ping FAILED Retry 2 comp0.pccluster.org: ping FAILED Retry 3 comp0.pccluster.org: ping FAILED Retry 4 comp0.pccluster.org: ping FAILED Retry 5 comp0.pccluster.org: ping FAILED Retry 6 comp0.pccluster.org: ping FAILED Retry 7 comp0.pccluster.org: ping FAILED Retry 8 comp0.pccluster.org: ping FAILED Retry 9 comp0.pccluster.org: ping FAILED comp0.pccluster.org 1 host not responding. システムの構成は、サーバーホスト1台+計算ホスト1台です。(2台とも仕様は同 じで、以下に示します。) CPU Intel Pentium4 2.53GHz メモリ 256MB ネットワーク Ethernet 以上が状況説明です。このエラーの解決策をご存じの方がいらっしゃいまし たらご教授いただけないでしょうか。お忙しいところ恐縮ですが、よろしくお願いし ます。 _________________________________________________________________ MSN Hotmail が贈る Hot Xmas × VOGUE http://promotion.msn.co.jp/hotmail/xmas/index.html 素敵なクリスマスコフレを プレゼント From inagaki @ ueda.info.waseda.ac.jp Thu Dec 8 14:38:15 2005 From: inagaki @ ueda.info.waseda.ac.jp (Ryoichi INAGAKI) Date: Thu, 08 Dec 2005 14:38:15 +0900 (JST) Subject: [SCore-users-jp] Re: Is it a MPICH-SCore problem? In-Reply-To: <20051205105132.D949021EF52@neal.il.is.s.u-tokyo.ac.jp> References: <20051205.185837.193695604.inagaki@ueda.info.waseda.ac.jp> <20051205105132.D949021EF52@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <20051208.143815.193705647.inagaki@ueda.info.waseda.ac.jp> 亀山様 早稲田大学の稲垣です。 返信が遅くなってしまい申し訳ありません。 On Mon, 05 Dec 2005 19:51:32 +0900, kameyama @ pccluster.org wrote: > In article <20051205.185837.193695604.inagaki @ ueda.info.waseda.ac.jp> Ryoichi INAGAKI wrotes: > > On Mon, 05 Dec 2005 17:23:30 +0900, > > kameyama @ pccluster.org wrote: > > > > > 6. system call を trap しているので, そのための overhead > > > 7. memory limit などを監視するための overhead > > > がありますが, 多分, そんなに大きくはないと思います. > > > 7. は default で single user mode で 10 秒です. > > > (scrun の -ts オプションで変更できます.) > > > 6. は compile のときに -noscwrap オプションをつければ回避できます. > > > > 両者とも試してみましたが、状況は変わりませんでした。 > > scrun の -node 指定が 1 ノードかそれ以上かで実行するコードが違っていた > > りするのでしょうか。 > > 基本的にはコードは同じです. > ただ, PM の初期化などを行なうかどうかが違ってくるだけだと思います. > (program の起動前とか, MPI_init() あたりだけだと思いますけど...) > > > > > # Fedora Core 4 より Fedora Core 3 の方が無難でしょうか? > > > > > > テストしているのが Fedora Core 3 なので, SCore 的には Fedora Core 3 > > > のほうが無難ですが. デュアルコア Opteron だと install できるか > > > どうかのほうが問題になりそうな... > > > > 結構、SCore 内部で CPU Specific な命令を使っていたりするのでしょうか... > > CPU 依存のものは若干はありますが, かなり限定されていると思います. > (spinlock とか, SCore-D の記述言語 MPC++ での setjump/longjump とか...) > > むしろ, compiler の変更 (Fedora Core 4 は gcc 4) のほうが > 影響は大きいかも知れません. GCC 3.2 を使って SCore をビルドしてみましたが変化はありませんでした。 SCore 自体をプロファイリングしてみたいのも山々なのですが、卒論等の関係 でそのあたりに手をいれる時間もあまりないので、当座は素の MPICH で凌ご うと思います。解決できたら、また報告させていただきたいと思います。 _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ 早稲田大学大学院 理工学研究科 情報・ネットワーク専攻 上田研究室 D1 稲垣 良一 _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ From kameyama @ pccluster.org Thu Dec 8 14:44:48 2005 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Thu, 08 Dec 2005 14:44:48 +0900 Subject: [SCore-users-jp] =?ISO-2022-JP?B?U0NPVVQbJEIlRiU5JUgbKEI=?= =?ISO-2022-JP?B?GyRCJE4lKCVpITwbKEI=?= In-Reply-To: Your message of "Wed, 07 Dec 2005 17:00:01 JST." Message-ID: <20051208054448.D589021EF52@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article 松村 拓哉 wrotes: > 現在、「PC Cluster Consortium」の「RPMファイルによるインストール」を参考にし > ながらFedora Core 1 + Score 5.8.2の組合せでテスト用のPCクラスタを構築してい > ます。Scoreをインストールした後、システムテストの手順にしたがってテストを行 > いました。その結果、SCOUTテストで以下のようなエラーが出て先に進めません。 > > [root @ server root]# scorehosts -l -g pcc > comp0.pccluster.org compute host の hostname は正しいでしょうか? > [root @ server root]# sceptic -v -g pcc > comp0.pccluster.org: ping FAILED server から comp0 に ping を行っていて失敗しているわけなのですが, server もしくは comp0 で firewall 設定をしていて ping を 通さないようにしているなどということはありませんでしょうか? from Kameyama Toyohisa From s-sumi @ flab.fujitsu.co.jp Thu Dec 8 14:58:01 2005 From: s-sumi @ flab.fujitsu.co.jp (Shinji Sumimoto) Date: Thu, 08 Dec 2005 14:58:01 +0900 (JST) Subject: [SCore-users-jp] Re: Is it a MPICH-SCore problem? In-Reply-To: <20051208.143815.193705647.inagaki@ueda.info.waseda.ac.jp> References: <20051205.185837.193695604.inagaki@ueda.info.waseda.ac.jp> <20051205105132.D949021EF52@neal.il.is.s.u-tokyo.ac.jp> <20051208.143815.193705647.inagaki@ueda.info.waseda.ac.jp> Message-ID: <20051208.145801.68150577.s-sumi@flab.fujitsu.co.jp> 稲垣様 富士通研の住元です。 プログラムを stat=all オプションを使った時に得られるCPU結果と実際の elapse時間とは差がありますでしょうか? 例 $ scrun -nodes=4x1,stat=all ./a.out また 以下のドキュメントにあるPM のテスト結果はどうでしょう? http://www.pccluster.org/score/dist/score/html/ja/installation/pm-test.html From: Ryoichi INAGAKI Subject: [SCore-users-jp] Re: Is it a MPICH-SCore problem? Date: Thu, 08 Dec 2005 14:38:15 +0900 (JST) Message-ID: <20051208.143815.193705647.inagaki @ ueda.info.waseda.ac.jp> inagaki> 亀山様 inagaki> inagaki> 早稲田大学の稲垣です。 inagaki> 返信が遅くなってしまい申し訳ありません。 inagaki> inagaki> On Mon, 05 Dec 2005 19:51:32 +0900, inagaki> kameyama @ pccluster.org wrote: inagaki> inagaki> > In article <20051205.185837.193695604.inagaki @ ueda.info.waseda.ac.jp> Ryoichi INAGAKI wrotes: inagaki> > > On Mon, 05 Dec 2005 17:23:30 +0900, inagaki> > > kameyama @ pccluster.org wrote: inagaki> > > inagaki> > > > 6. system call を trap しているので, そのための overhead inagaki> > > > 7. memory limit などを監視するための overhead inagaki> > > > がありますが, 多分, そんなに大きくはないと思います. inagaki> > > > 7. は default で single user mode で 10 秒です. inagaki> > > > (scrun の -ts オプションで変更できます.) inagaki> > > > 6. は compile のときに -noscwrap オプションをつければ回避できます. inagaki> > > inagaki> > > 両者とも試してみましたが、状況は変わりませんでした。 inagaki> > > scrun の -node 指定が 1 ノードかそれ以上かで実行するコードが違っていた inagaki> > > りするのでしょうか。 inagaki> > inagaki> > 基本的にはコードは同じです. inagaki> > ただ, PM の初期化などを行なうかどうかが違ってくるだけだと思います. inagaki> > (program の起動前とか, MPI_init() あたりだけだと思いますけど...) inagaki> > inagaki> > > > > # Fedora Core 4 より Fedora Core 3 の方が無難でしょうか? inagaki> > > > inagaki> > > > テストしているのが Fedora Core 3 なので, SCore 的には Fedora Core 3 inagaki> > > > のほうが無難ですが. デュアルコア Opteron だと install できるか inagaki> > > > どうかのほうが問題になりそうな... inagaki> > > inagaki> > > 結構、SCore 内部で CPU Specific な命令を使っていたりするのでしょうか... inagaki> > inagaki> > CPU 依存のものは若干はありますが, かなり限定されていると思います. inagaki> > (spinlock とか, SCore-D の記述言語 MPC++ での setjump/longjump とか...) inagaki> > inagaki> > むしろ, compiler の変更 (Fedora Core 4 は gcc 4) のほうが inagaki> > 影響は大きいかも知れません. inagaki> inagaki> GCC 3.2 を使って SCore をビルドしてみましたが変化はありませんでした。 inagaki> inagaki> SCore 自体をプロファイリングしてみたいのも山々なのですが、卒論等の関係 inagaki> でそのあたりに手をいれる時間もあまりないので、当座は素の MPICH で凌ご inagaki> うと思います。解決できたら、また報告させていただきたいと思います。 inagaki> inagaki> inagaki> _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ inagaki> 早稲田大学大学院 理工学研究科 inagaki> 情報・ネットワーク専攻 上田研究室 D1 inagaki> inagaki> 稲垣 良一 inagaki> _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ ------ Shinji Sumimoto, Fujitsu Labs From inagaki @ ueda.info.waseda.ac.jp Thu Dec 8 16:35:18 2005 From: inagaki @ ueda.info.waseda.ac.jp (Ryoichi INAGAKI) Date: Thu, 08 Dec 2005 16:35:18 +0900 (JST) Subject: [SCore-users-jp] Re: Is it a MPICH-SCore problem? In-Reply-To: <20051208.145801.68150577.s-sumi@flab.fujitsu.co.jp> References: <20051205105132.D949021EF52@neal.il.is.s.u-tokyo.ac.jp> <20051208.143815.193705647.inagaki@ueda.info.waseda.ac.jp> <20051208.145801.68150577.s-sumi@flab.fujitsu.co.jp> Message-ID: <20051208.163518.226780276.inagaki@ueda.info.waseda.ac.jp> 住元様 早稲田大学の稲垣です。 ご指摘いただいた点について調べてみました。 On Thu, 08 Dec 2005 14:58:01 +0900 (JST), Shinji Sumimoto wrote: > プログラムを stat=all オプションを使った時に得られるCPU結果と実際の > elapse時間とは差がありますでしょうか? > > 例 > $ scrun -nodes=4x1,stat=all ./a.out これについては特に差が発生しませんでした。 [inagaki @ salers matrix]$ scrun -nodes=1x1,stat=all ./a.out SCore-D 5.8.3 connected. <0:0> SCORE: One node ready. 2.490 sec. -=-=-=-= SCore-D Statistics =-=-=-=- Nodes:1, User:2.657[S], Elapsed:2.860[S], CSW:1, CKPT:0 1[hosts]x1[procs], salers00.clusters.ueda.info.waseda.ac.jp...salers00.clusters.ueda.info.waseda.ac.jp #Node UsrTime SysTime Mem Disk #SC IO Exit 0 2.544[S] 63.0[m] 14.30[MB] 1[MB] 5 0[B] 0 Min 2.544[S] 63.0[m] 14.30[MB] 1[MB] 5 0[B] --- Max 2.544[S] 63.0[m] 14.30[MB] 1[MB] 5 0[B] --- Ave 2.544[S] 63.0[m] 14.30[MB] 1[MB] 5 0[B] --- [inagaki @ salers matrix]$ scrun -nodes=2x1,stat=all ./a.out SCore-D 5.8.3 connected. <0:0> SCORE: 2 nodes (2x1) ready. 7.210 sec. 7.220 sec. -=-=-=-= SCore-D Statistics =-=-=-=- Nodes:2, User:7.448[S], Elapsed:7.651[S], CSW:1, CKPT:0 2[hosts]x1[procs], salers00.clusters.ueda.info.waseda.ac.jp...salers01.clusters.ueda.info.waseda.ac.jp [0:0] Network: ethernet/ethernet:1[1]; [1:0] ethernet/ethernet:1[1]; #Node UsrTime SysTime Mem Disk #SC IO Exit 0 7.275[S] 80.0[m] 15.07[MB] 1[MB] 5 0[B] 0 1 7.280[S] 92.0[m] 14.80[MB] 1[MB] 5 0[B] 0 Min 7.275[S] 80.0[m] 14.80[MB] 1[MB] 5 0[B] --- Max 7.280[S] 92.0[m] 15.07[MB] 1[MB] 5 0[B] --- Ave 7.277[S] 86.0[m] 14.93[MB] 1[MB] 5 0[B] --- > また 以下のドキュメントにあるPM のテスト結果はどうでしょう? > > http://www.pccluster.org/score/dist/score/html/ja/installation/pm-test.html PM/Ethernet, PM/Shmem についてテストを行ったところ、 PM/Ethernet の Point-to-Point テストの挙動に不審な部分がありました。 rpmtest が普通に成功する場合と応答が返ってこない場合があり、その割合は 後者の方が多いです。計算ノードの /proc/pm/ethernet/0/info を見てみたと ころ Dev error : 2 という値が設定されていました。他の計算ノードでも 0 以上の値が設定され ていたので、何かしら PM ドライバ周辺でエラーが発生しているということを 意味しているのでしょうか・・・? 使用しているネットワークデバイスは Broadcom BCM5721 で Fedora Core 4 では tg3 ドライバを使用しています。 PM/Ethernet の scstest, PM/Shmem のすべてのテストについてはエラーなど は発生しませんでした。 _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ 早稲田大学大学院 理工学研究科 情報・ネットワーク専攻 上田研究室 D1 稲垣 良一 _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ From s-sumi @ flab.fujitsu.co.jp Thu Dec 8 16:58:05 2005 From: s-sumi @ flab.fujitsu.co.jp (Shinji Sumimoto) Date: Thu, 08 Dec 2005 16:58:05 +0900 (JST) Subject: [SCore-users-jp] Re: Is it a MPICH-SCore problem? In-Reply-To: <20051208.163518.226780276.inagaki@ueda.info.waseda.ac.jp> References: <20051208.143815.193705647.inagaki@ueda.info.waseda.ac.jp> <20051208.145801.68150577.s-sumi@flab.fujitsu.co.jp> <20051208.163518.226780276.inagaki@ueda.info.waseda.ac.jp> Message-ID: <20051208.165805.98872692.s-sumi@flab.fujitsu.co.jp> 稲垣様 住元です。 使っているカーネルは、SCore 5.8.3附属の2.6.11でしょうか?その際に PM/EthernetドライバのInterrupt Reapingの設定はONでしょうか? ONの場合はOFFにして試して頂けないでしょうか? あと、正常に動いた際のpmtest -ping (-reply) の結果はどうでしょう? inagaki> Dev error : 2 このエラーについては、送信が失敗した場合にカウントされます。失敗理由は 送信キューが一杯、ドライバのエラーなどが考えられます。しかし、エラーが でても再送されるので通常問題はありません。 デバイスのエラーの場合はifconfig の結果で調べるともう少し詳しい状況が わかります。 From: Ryoichi INAGAKI Subject: Re: [SCore-users-jp] Re: Is it a MPICH-SCore problem? Date: Thu, 08 Dec 2005 16:35:18 +0900 (JST) Message-ID: <20051208.163518.226780276.inagaki @ ueda.info.waseda.ac.jp> inagaki> 住元様 inagaki> inagaki> 早稲田大学の稲垣です。 inagaki> ご指摘いただいた点について調べてみました。 inagaki> inagaki> On Thu, 08 Dec 2005 14:58:01 +0900 (JST), inagaki> Shinji Sumimoto wrote: inagaki> inagaki> > プログラムを stat=all オプションを使った時に得られるCPU結果と実際の inagaki> > elapse時間とは差がありますでしょうか? inagaki> > inagaki> > 例 inagaki> > $ scrun -nodes=4x1,stat=all ./a.out inagaki> inagaki> これについては特に差が発生しませんでした。 inagaki> inagaki> [inagaki @ salers matrix]$ scrun -nodes=1x1,stat=all ./a.out inagaki> SCore-D 5.8.3 connected. inagaki> <0:0> SCORE: One node ready. inagaki> 2.490 sec. inagaki> inagaki> -=-=-=-= SCore-D Statistics =-=-=-=- inagaki> Nodes:1, User:2.657[S], Elapsed:2.860[S], CSW:1, CKPT:0 inagaki> 1[hosts]x1[procs], salers00.clusters.ueda.info.waseda.ac.jp...salers00.clusters.ueda.info.waseda.ac.jp inagaki> inagaki> #Node UsrTime SysTime Mem Disk #SC IO Exit inagaki> 0 2.544[S] 63.0[m] 14.30[MB] 1[MB] 5 0[B] 0 inagaki> Min 2.544[S] 63.0[m] 14.30[MB] 1[MB] 5 0[B] --- inagaki> Max 2.544[S] 63.0[m] 14.30[MB] 1[MB] 5 0[B] --- inagaki> Ave 2.544[S] 63.0[m] 14.30[MB] 1[MB] 5 0[B] --- inagaki> inagaki> [inagaki @ salers matrix]$ scrun -nodes=2x1,stat=all ./a.out inagaki> SCore-D 5.8.3 connected. inagaki> <0:0> SCORE: 2 nodes (2x1) ready. inagaki> 7.210 sec. inagaki> 7.220 sec. inagaki> inagaki> -=-=-=-= SCore-D Statistics =-=-=-=- inagaki> Nodes:2, User:7.448[S], Elapsed:7.651[S], CSW:1, CKPT:0 inagaki> 2[hosts]x1[procs], salers00.clusters.ueda.info.waseda.ac.jp...salers01.clusters.ueda.info.waseda.ac.jp inagaki> [0:0] inagaki> Network: inagaki> ethernet/ethernet:1[1]; inagaki> [1:0] ethernet/ethernet:1[1]; inagaki> inagaki> #Node UsrTime SysTime Mem Disk #SC IO Exit inagaki> 0 7.275[S] 80.0[m] 15.07[MB] 1[MB] 5 0[B] 0 inagaki> 1 7.280[S] 92.0[m] 14.80[MB] 1[MB] 5 0[B] 0 inagaki> Min 7.275[S] 80.0[m] 14.80[MB] 1[MB] 5 0[B] --- inagaki> Max 7.280[S] 92.0[m] 15.07[MB] 1[MB] 5 0[B] --- inagaki> Ave 7.277[S] 86.0[m] 14.93[MB] 1[MB] 5 0[B] --- inagaki> inagaki> inagaki> inagaki> > また 以下のドキュメントにあるPM のテスト結果はどうでしょう? inagaki> > inagaki> > http://www.pccluster.org/score/dist/score/html/ja/installation/pm-test.html inagaki> inagaki> PM/Ethernet, PM/Shmem についてテストを行ったところ、 inagaki> PM/Ethernet の Point-to-Point テストの挙動に不審な部分がありました。 inagaki> inagaki> rpmtest が普通に成功する場合と応答が返ってこない場合があり、その割合は inagaki> 後者の方が多いです。計算ノードの /proc/pm/ethernet/0/info を見てみたと inagaki> ころ inagaki> inagaki> Dev error : 2 inagaki> inagaki> という値が設定されていました。他の計算ノードでも 0 以上の値が設定され inagaki> ていたので、何かしら PM ドライバ周辺でエラーが発生しているということを inagaki> 意味しているのでしょうか・・・? inagaki> inagaki> 使用しているネットワークデバイスは Broadcom BCM5721 で Fedora Core 4 inagaki> では tg3 ドライバを使用しています。 inagaki> inagaki> PM/Ethernet の scstest, PM/Shmem のすべてのテストについてはエラーなど inagaki> は発生しませんでした。 inagaki> inagaki> _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ inagaki> 早稲田大学大学院 理工学研究科 inagaki> 情報・ネットワーク専攻 上田研究室 D1 inagaki> inagaki> 稲垣 良一 inagaki> _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ ------ Shinji Sumimoto, Fujitsu Labs From f-2a @ hotmail.co.jp Thu Dec 8 19:54:00 2005 From: f-2a @ hotmail.co.jp (=?iso-2022-jp?B?GyRCPj5CPBsoQiAbJEJCczpIGyhC?=) Date: Thu, 08 Dec 2005 19:54:00 +0900 Subject: =?iso-2022-jp?B?UmU6IFtTQ29yZS11c2Vycy1qcF0gU0NPVVQbJEIlRiU5JUgkThsoQg==?= =?iso-2022-jp?B?GyRCJSglaSE8GyhC?= Message-ID: 亀山様 早速の回答ありがとうございます。ご指摘のにありました通り、firewallが有効に なっていましたので、firewallの設定を無効にしてコマンドを実行してみましたとこ ろ、再び以下のエラーが返ってきました。 > > [root @ server root]# sceptic -v -g pcc > > comp0.pccluster.org: ping FAILED ここで質問があります。”compute host のhostname は正しいでしょうか?”という のは環境変数SCBDSERVおよびPATHを設定するときに使用する $ export SCBDSERV=`hostname` が正しく入力されていないということなのでしょうか? 計算ホストのホスト名は comp0.pccluster.org にしています。 以上が状況説明です。今後どのように対処すればよいか分からず、お手上げ状態で す。 アドバイスを頂けると助かります。よろしくお願いします。 _________________________________________________________________ 次世代ゲーム機 Xbox360をいち早くゲットしよう http://promotion.msn.co.jp/xbox360/ 発売記念パック ただいま予約受付中! From inagaki @ ueda.info.waseda.ac.jp Fri Dec 9 01:01:40 2005 From: inagaki @ ueda.info.waseda.ac.jp (Ryoichi INAGAKI) Date: Fri, 09 Dec 2005 01:01:40 +0900 (JST) Subject: [SCore-users-jp] Re: Is it a MPICH-SCore problem? In-Reply-To: <20051208.165805.98872692.s-sumi@flab.fujitsu.co.jp> References: <20051208.145801.68150577.s-sumi@flab.fujitsu.co.jp> <20051208.163518.226780276.inagaki@ueda.info.waseda.ac.jp> <20051208.165805.98872692.s-sumi@flab.fujitsu.co.jp> Message-ID: <20051209.010140.226804670.inagaki@ueda.info.waseda.ac.jp> 住元様 稲垣です。 On Thu, 08 Dec 2005 16:58:05 +0900 (JST), Shinji Sumimoto wrote: > 使っているカーネルは、SCore 5.8.3附属の2.6.11でしょうか?その際に > PM/EthernetドライバのInterrupt Reapingの設定はONでしょうか? > ONの場合はOFFにして試して頂けないでしょうか? PC Cluster Consortium で配布しているカーネルが i686 用だったので、当方 でパッチを当てて作成したものになっています。 管理ノード: 2.6.14-1.1644_FC4 (Fedora Core 4) 計算ノード: 2.6.11.12 + SCore のカーネルパッチ # 試しに i686 カーネルを入れてみたのですが、OS を起動できませんでした。 Interrupt Reaping の設定は ON でした。OFF にしてカーネルを再構築したと ころ、当初の問題は解決していないものの rpmtest は確実に返ってくるよう になりました。ありがとうございます。 > あと、正常に動いた際のpmtest -ping (-reply) の結果はどうでしょう? 次のような出力になります。 [inagaki @ salers ~]$ rpmtest salers00 ethernet -dest 1 -ping 8 3.54506e-05 # Linux カーネルの Dual-core CPU への対応状況も関係してくるのでしょう # かね・・ _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ 早稲田大学大学院 理工学研究科 情報・ネットワーク専攻 上田研究室 D1 稲垣 良一 _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ From kameyama @ pccluster.org Fri Dec 9 09:02:35 2005 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Fri, 09 Dec 2005 09:02:35 +0900 Subject: [SCore-users-jp] =?ISO-2022-JP?B?U0NPVVQbJEIlRiU5GyhC?= =?ISO-2022-JP?B?GyRCJUgkTiUoJWkhPBsoQg==?= In-Reply-To: Your message of "Thu, 08 Dec 2005 19:54:00 JST." Message-ID: <20051209000235.414E121EF52@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article 松村 拓哉 wrotes: > 早速の回答ありがとうございます。ご指摘のにありました通り、firewallが有効に > なっていましたので、firewallの設定を無効にしてコマンドを実行してみましたとこ > ろ、再び以下のエラーが返ってきました。 firewall が有効になっていたのは compute host でしょうか? server のほうでしょうか? > > > > [root @ server root]# sceptic -v -g pcc > > > comp0.pccluster.org: ping FAILED 直接 [root @ server root]# ping comp0.pccluster.org とした場合はどのようになるでしょうか? > ここで質問があります。”compute host のhostname は正しいでしょうか?”という > のは環境変数SCBDSERVおよびPATHを設定するときに使用する > > $ export SCBDSERV=`hostname` > > が正しく入力されていないということなのでしょうか? 計算ホストのホスト名は > comp0.pccluster.org にしています。 pcc から comp0.pccluster.org が出てきているので, SCBDSERV は正しいと 思います. 問題は scorehosts.db の中に入っているホスト名です. 当然, その名前で server からアクセスできる必要があるのですが... from Kameyama Toyohisa From f-2a @ hotmail.co.jp Fri Dec 9 19:49:10 2005 From: f-2a @ hotmail.co.jp (=?iso-2022-jp?B?GyRCPj5CPBsoQiAbJEJCczpIGyhC?=) Date: Fri, 09 Dec 2005 19:49:10 +0900 Subject: =?iso-2022-jp?B?UmU6IFJlOiBbU0NvcmUtdXNlcnMtanBdIFNDT1VUGyRCJUYlORsoQg==?= =?iso-2022-jp?B?GyRCJUgkTiUoJWkhPBsoQg==?= In-Reply-To: <20051209000235.414E121EF52@neal.il.is.s.u-tokyo.ac.jp> Message-ID: 亀山様 回答ありがとうございました。以下が回答に従い実行した結果です。 >firewall が有効になっていたのは compute host でしょうか? >server のほうでしょうか? 両方ともfirewallの設定が有効になっていたので、ディスクトップ上の「システムの 設定」から「セキュリティレベルの設定」を行いfirewallを無効にしたのですが、こ れで十分だったのでしょうか? >直接 > [root @ server root]# ping comp0.pccluster.org >とした場合はどのようになるでしょうか? > このコマンドを実行する前にネットワークの設定を行う必要があることを聞き、 /etc/hosts のファイルにcomp0 のIPアドレスとホスト名を追加して実行したとこ ろ、以下の結果が返ってきました。 [root @ server root]# ping comp0.pccluster.org PING comp0.pccluster.org (192.168.1.101) 56(84) bytes of data. 64 bytes from comp0.pccluster.org (192.168.1.101): icmp_seq=0 ttl=64 time=0.242 ms 64 bytes from comp0.pccluster.org (192.168.1.101): icmp_seq=1 ttl=64 time=0.123 ms 64 bytes from comp0.pccluster.org (192.168.1.101): icmp_seq=2 ttl=64 time=0.113 ms 64 bytes from comp0.pccluster.org (192.168.1.101): icmp_seq=3 ttl=64 time=0.125 ms 続いてSCOUTテストを実行してみましたところ、以下の結果が返ってきました。 [root @ server root]# scorehosts -l -g pcc comp0.pccluster.org 1 host found. [root @ server root]# sceptic -v -g pcc comp0.pccluster.org: scping FAILED /usr/bin/rsh: comp0.pccluster.org FAILED Retry 1 前回と違うエラーが返って来たのですが、これはどのように解釈すればよろしいので しょうか。 >問題は scorehosts.db の中に入っているホスト名です. >当然, その名前で server からアクセスできる必要があるのですが... 最後に scorehosts.db の中身を確認しましたが、以下の通り正しく入力されている と思うのですが。 /* Macro to define a host */ #define PCC msgbserv=(server.pccluster.org:8764) \ cpugen=pentium-iv speed=2530 smp=2 \ network=ethernet,udp,shmem0,shmem1 \ group=pcc comp0.pccluster.org PCC 長くなりましたが、よろしくお願いします。 _________________________________________________________________ 無料で250MBの受信ボックスが使える「MSN Hotmail」 http://promotion.msn.co.jp/hotmail/ From kameyama @ pccluster.org Fri Dec 9 21:33:46 2005 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Fri, 09 Dec 2005 21:33:46 +0900 Subject: [SCore-users-jp] =?ISO-2022-JP?B?U0NPVVQ=?= =?ISO-2022-JP?B?GyRCJUYlOSVIJE4lKCVpITwbKEI=?= In-Reply-To: Your message of "Fri, 09 Dec 2005 19:49:10 JST." Message-ID: <20051209123346.7C48221EF52@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article 松村 拓哉 wrotes: > >firewall が有効になっていたのは compute host でしょうか? > >server のほうでしょうか? > > 両方ともfirewallの設定が有効になっていたので、ディスクトップ上の「システムの > 設定」から「セキュリティレベルの設定」を行いfirewallを無効にしたのですが、こ > れで十分だったのでしょうか? はい. > 続いてSCOUTテストを実行してみましたところ、以下の結果が返ってきました。 > > [root @ server root]# scorehosts -l -g pcc > comp0.pccluster.org > 1 host found. > [root @ server root]# sceptic -v -g pcc > comp0.pccluster.org: scping FAILED > /usr/bin/rsh: comp0.pccluster.org FAILED > Retry 1 > > 前回と違うエラーが返って来たのですが、これはどのように解釈すればよろしいので > しょうか。 これは, comp0 への ping は成功したのですが, 1. comp0 で scoutd が動いていない もしくは scoutd の設定ファイル (default は /etc/hosts.equiv) に server が設定されていない 2. server から comp0 へ rs ができない 場合の結果です. 多分, rpm で compute host を install して reboot したのでしたら scoutd があがっているのだと思います. http://www.pccluster.org/score/dist/score-5.8.2/html/ja/installation/sys-compute.html にあるように, /etc/hosts.equiv に server を記述してください. また, server から comp0 に root で rsh できるようにするために /root/.rhosts に同様の記述をするとともに, /etc/securetty に rsh を追加してください. さらに comp0# /sbin/chkconfig rsh on で rsh できるようにしてください. > > 最後に scorehosts.db の中身を確認しましたが、以下の通り正しく入力されている > と思うのですが。 > > /* Macro to define a host */ > #define PCC msgbserv=(server.pccluster.org:8764) \ > cpugen=pentium-iv speed=2530 smp=2 \ > network=ethernet,udp,shmem0,shmem1 \ > group=pcc > comp0.pccluster.org PCC 多分, udp は動かないような... from Kameyama Toyohisa From f-2a @ hotmail.co.jp Sat Dec 10 11:38:06 2005 From: f-2a @ hotmail.co.jp (=?iso-2022-jp?B?GyRCPj5CPBsoQiAbJEJCczpIGyhC?=) Date: Sat, 10 Dec 2005 11:38:06 +0900 Subject: =?iso-2022-jp?B?UmU6IFJlOiBSZTogW1NDb3JlLXVzZXJzLWpwXSBTQ09VVA==?= =?iso-2022-jp?B?GyRCJUYlOSVIJE4lKCVpITwbKEI=?= In-Reply-To: <20051209123346.7C48221EF52@neal.il.is.s.u-tokyo.ac.jp> Message-ID: 亀山様 回答ありがとうございました。 >これは, comp0 への ping は成功したのですが, > 1. comp0 で scoutd が動いていない > もしくは scoutd の設定ファイル (default は /etc/hosts.equiv) に > server が設定されていない > 2. server から comp0 へ rs ができない >場合の結果です。 /etc/hosts.equiv と/root/.rhosts を確認しましたが server を記述の記述はあり ました。 /etc/securetty にも rsh を追加していたので、1. の方は問題ないと 思います。 そこで、2.の方に問題があると思うのですが、回答にあったコマンドを実行したとこ ろ以下の結果が返ってきました。 [root @ comp0 root]# /sbin/chkconfig rsh on サービス rsh に関する情報の読み込み中にエラーが発生しました: そのようなファ イルやディレクトリはありません server から comp0 に rsh ができるようにするには、何か特別な設定が必要なので しょうか。初歩的な質問で申し訳ありませんが、よろしくお願いします。 _________________________________________________________________ パソコンでも携帯電話でも使える 「MSN Hotmail」 http://promotion.msn.co.jp/hotmail/ From kameyama @ pccluster.org Sat Dec 10 13:55:40 2005 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Sat, 10 Dec 2005 13:55:40 +0900 Subject: [SCore-users-jp] =?ISO-2022-JP?B?U0NPVVQ=?= =?ISO-2022-JP?B?GyRCJUYlOSVIJE4lKCVpITwbKEI=?= In-Reply-To: Your message of "Sat, 10 Dec 2005 11:38:06 JST." Message-ID: <20051210045540.F37E121EF52@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article 松村 拓哉 wrotes: > >これは, comp0 への ping は成功したのですが, > > 1. comp0 で scoutd が動いていない > > もしくは scoutd の設定ファイル (default は /etc/hosts.equiv) に > > server が設定されていない > > 2. server から comp0 へ rs ができない rsh の間違いです. > >場合の結果です。 > > /etc/hosts.equiv と/root/.rhosts を確認しましたが server を記述の記述はあり > ました。 /etc/securetty にも rsh を追加していたので、1. の方は問題ないと > 思います。 だとすると, scping に成功しているような... comp0 で scoutd は生きていますでしょうか? (まあ, 2 が動けば一応動きますが...) > そこで、2.の方に問題があると思うのですが、回答にあったコマンドを実行したとこ > ろ以下の結果が返ってきました。 > > [root @ comp0 root]# /sbin/chkconfig rsh on > サービス rsh に関する情報の読み込み中にエラーが発生しました: そのようなファ > イルやディレクトリはありません comp0 に rsh-server という rpm は入っているでしょうか? (推奨どおり everything でインストールすれば入っているはずなのですが...) この rpm に rshd というプログラムがあり, rsh リクエストをうけつけます. from Kameyama Toyohisa From f-2a @ hotmail.co.jp Tue Dec 13 18:37:34 2005 From: f-2a @ hotmail.co.jp (=?iso-2022-jp?B?GyRCPj5CPBsoQiAbJEJCczpIGyhC?=) Date: Tue, 13 Dec 2005 18:37:34 +0900 Subject: =?iso-2022-jp?B?UmU6IFJlOiBSZTogUmU6IFtTQ29yZS11c2Vycy1qcF0gU0NPVVQ=?= =?iso-2022-jp?B?GyRCJUYlOSVIJE4lKCVpITwbKEI=?= Message-ID: 亀山様 早速の回答ありがとうございました。ご指摘にありました通り、Fedoraのすべての RPMパッケージをインストールしていませんでしたので、追加インストールしました ところ以下のコマンドを実行することができました。 [root @ comp0 root]# /sbin/chkconfig rsh on これで,serverからcomp0へrshができたと考えてよいのでしょうか? しかし、SCOUTテストでは前回と同じエラーが返ってきてしまい、困っています。 >comp0 で scoutd は生きていますでしょうか? >(まあ, 2 が動けば一応動きますが...) この”comp0 で scoutd は生きていますでしょうか?”というのは、どうやって確認 すればよいのか恥ずかしながら分かりませんでしたので、確認方法を教えて頂けない でしょうか。 遅くなりましたが、お返事致します。よろしくお願いします。 _________________________________________________________________ 無料で250MBの受信ボックスが使える「MSN Hotmail」 http://promotion.msn.co.jp/hotmail/ From kameyama @ pccluster.org Tue Dec 13 19:04:18 2005 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Tue, 13 Dec 2005 19:04:18 +0900 Subject: [SCore-users-jp] =?ISO-2022-JP?B?U0NPVVQ=?= =?ISO-2022-JP?B?GyRCJUYlOSVIJE4lKCVpITwbKEI=?= In-Reply-To: Your message of "Tue, 13 Dec 2005 18:37:34 JST." Message-ID: <20051213100418.4C24021EF52@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article 松村 拓哉 wrotes: > 早速の回答ありがとうございました。ご指摘にありました通り、Fedoraのすべての > RPMパッケージをインストールしていませんでしたので、追加インストールしました > ところ以下のコマンドを実行することができました。 > > [root @ comp0 root]# /sbin/chkconfig rsh on > > これで,serverからcomp0へrshができたと考えてよいのでしょうか? rshd ができるようになったことが期待できるだけで, できるかどうかは 試してみないと... serever から % rsh comp0 date をおこなったらどうなりますか? xinetd は入っていますでしょうか? それでもだめなら comp0 を reboot してみてください. > >comp0 で scoutd は生きていますでしょうか? > >(まあ, 2 が動けば一応動きますが...) > > この”comp0 で scoutd は生きていますでしょうか?”というのは、どうやって確認 > すればよいのか恥ずかしながら分かりませんでしたので、確認方法を教えて頂けない > でしょうか。 comp0 で % ps auxwww | grep scoutd | grep -v grep してみてください. from Kameyama Toyohisa From f-2a @ hotmail.co.jp Wed Dec 14 16:55:54 2005 From: f-2a @ hotmail.co.jp (=?iso-2022-jp?B?GyRCPj5CPBsoQiAbJEJCczpIGyhC?=) Date: Wed, 14 Dec 2005 16:55:54 +0900 Subject: =?iso-2022-jp?B?UmU6IFJlOiBSZTogUmU6IFJlOiBSZTogW1NDb3JlLXVzZXJzLWpwXSA=?= =?iso-2022-jp?B?U0NPVVQbJEIlRiU5JUgkTiUoJWkhPBsoQg==?= In-Reply-To: <20051214071736.C735C21EF52@neal.il.is.s.u-tokyo.ac.jp> Message-ID: 亀山様 回答ありがとうございました。前回はMLでなく直接メールを送ってしまい、申し訳あ りませんでした。 >1. comp0 の /etc/securetty に rsh が入っているかどうか? >2. comp0 の /etc/hosts.equiv, /root/.rhosts に server の host 名が入ってい る > かどうか? これは前回の回答にもありましたが、私はどこが悪いのか見つけることができません でしたので、迷惑だと思いますが添付させて頂きます。どこが悪いのかアドバイスを よろしくお願いします。 /etc/securetty console vc/1 vc/2 vc/3 vc/4 vc/5 vc/6 vc/7 vc/8 vc/9 vc/10 vc/11 tty1 tty2 tty3 tty4 tty5 tty6 tty7 tty8 tty9 tty10 tty11 rsh rsh rsh rsh rsh /etc/hosts.equiv server.pccluster.org comp0.pccluster.org /root/.rhosts server.pccluster.org comp0.pccluster.org >server から comp0 に ssh なら login できるでしょうか? >login したら w を実行すると > 16:14:39 up 52 days, 22:09, 1 user, load average: 0.00, 0.00, 0.00 > USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT > kameyama pts/1 server.pccluster 16:14 0.00s 0.02s 0.00s w > >のように FROM に ssh した hostname (の一部) が表示されるはずで, >/etc/hosts.equiv, /root/.rhosts にはこれを指定する必要があります. >これが正しい hostname になっているでしょうか? [root @ server root]# ssh root @ 192.168.1.101 root @ 192.168.1.101's password: Last login: Wed Dec 14 16:34:54 2005 from 192.168.1.102 [root @ comp0 root]# w 16:36:52 up 1:11, 3 users, load average: 1.21, 0.79, 0.35 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT root :0 - 3:27pm ? 0.00s 0.32s /usr/bin/gnome-root pts/1 :0.0 4:28pm 6:31 0.03s 0.03s bash root pts/2 192.168.1.102 4:36pm 0.00s 0.02s 0.00s w この場合、ホスト名の所がIPアドレスになっているのですが、ここが原因なのでしょ うか? どのようにしたら、ホスト名にすることができるか教えて頂けませんか。 よろしくお願いします。 _________________________________________________________________ 迷惑メールやウイルスへの対策も万全「MSN Hotmail」 http://promotion.msn.co.jp/hotmail/ From kameyama @ pccluster.org Wed Dec 14 17:08:26 2005 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Wed, 14 Dec 2005 17:08:26 +0900 Subject: [SCore-users-jp] =?ISO-2022-JP?B?U0NPVVQbJEIlRiU5JUgkTiUoJWkhPBsoQg==?= In-Reply-To: Your message of "Wed, 14 Dec 2005 16:55:54 JST." Message-ID: <20051214080826.3FBFF21EF52@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article 松村 拓哉 wrotes: > /etc/securetty これは正しいようです. (rsh は1つで良いですけど...) > /etc/hosts.equiv > > server.pccluster.org > comp0.pccluster.org > > /root/.rhosts > > server.pccluster.org > comp0.pccluster.org これも良いようです. > >server から comp0 に ssh なら login できるでしょうか? > >login したら w を実行すると > > 16:14:39 up 52 days, 22:09, 1 user, load average: 0.00, 0.00, 0.00 > > USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT > > kameyama pts/1 server.pccluster 16:14 0.00s 0.02s 0.00s w > > > >のように FROM に ssh した hostname (の一部) が表示されるはずで, > >/etc/hosts.equiv, /root/.rhosts にはこれを指定する必要があります. > >これが正しい hostname になっているでしょうか? > > [root @ server root]# ssh root @ 192.168.1.101 > root @ 192.168.1.101's password: > Last login: Wed Dec 14 16:34:54 2005 from 192.168.1.102 > [root @ comp0 root]# w > 16:36:52 up 1:11, 3 users, load average: 1.21, 0.79, 0.35 > USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT > root :0 - 3:27pm ? 0.00s 0.32s > /usr/bin/gnome-root pts/1 :0.0 4:28pm 6:31 0.03s > 0.03s bash > root pts/2 192.168.1.102 4:36pm 0.00s 0.02s 0.00s w > > この場合、ホスト名の所がIPアドレスになっているのですが、ここが原因なのでしょ > うか? はい. > どのようにしたら、ホスト名にすることができるか教えて頂けませんか。 > よろしくお願いします。 comp0 の /etc/hosts に server のPアドレスとホスト名を追加して下さい. from Kameyama Toyohisa From f-2a @ hotmail.co.jp Wed Dec 14 17:38:51 2005 From: f-2a @ hotmail.co.jp (=?iso-2022-jp?B?GyRCPj5CPBsoQiAbJEJCczpIGyhC?=) Date: Wed, 14 Dec 2005 17:38:51 +0900 Subject: =?iso-2022-jp?B?UmU6IFJlOiBSZTogUmU6IFJlOiBSZTogUmU6IFtTQ29yZS11c2Vycy0=?= =?iso-2022-jp?B?anBdIFNDT1VUGyRCJUYlOSVIJE4lKCVpITwbKEI=?= In-Reply-To: <20051214080826.3FBFF21EF52@neal.il.is.s.u-tokyo.ac.jp> Message-ID: 亀山様 回答ありがとうございました。 >comp0 の /etc/hosts に server のIPアドレスとホスト名を追加して下さい。 アドバイス通りserverのIPアドレスとホスト名を追加し、server から comp0 に ssh で login し w を実行してみましたら、ホスト名を確認できました。 続いてSCOUTテストを実行してみましたら、以下のように正しい動作を確認すること ができました。 [root @ server root]# scorehosts -l -g pcc comp0.pccluster.org 1 host found. [root @ server root]# sceptic -v -g pcc comp0.pccluster.org: OK All host responding. 本当にありがとうございました。おかげさまで、SCOUTテストを行うことができまし た。 これからも自分で解決できない問題が発生したら質問させて頂くと思いますので、今 後ともよろしくお願いします。 _________________________________________________________________ 無料で250MBの受信ボックスが使える「MSN Hotmail」 http://promotion.msn.co.jp/hotmail/ From kei_hata @ hotmail.com Fri Dec 16 02:24:48 2005 From: kei_hata @ hotmail.com (hata kei) Date: Fri, 16 Dec 2005 02:24:48 +0900 Subject: [SCore-users-jp] pm/ethernet error ( SCore 5.8.3 ) Message-ID: 畑田です。 Fedora Core 3 をインストールした後に、SCore 5.8.3 をRPMでインストールしまし た。pm/ethernetのテストを行なったところ、 1) Point-to-Point テスト (メッセージ) では通信がうまくいったりいかなかった りで、うまくいく場合でも非常に時間がかかってしまいます。 [root @ teoworld ~]# time rpmtest teofarm2 ethernet -dest 1 -ping 8 0.000941006 real 1m34.441s user 0m0.002s sys 0m0.006s 2) 総合テストでは以下のエラーがでてずっと止まってしまいます。 [root @ teoworld ~]# scstest -network ethernet -config:file=/opt/score5.8.3/etc/pm-ethernet.conf type=ethernet SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16) 0 -> 1: 13(d) -> 0(0): 0(0) Ethernet PM context #0 information (unit 0) channel 0 descripter information rx_p=00000036, rx_c=00000016, rx_bp=00000d80, rx_bc=00000580 tx_p=000000e3, tx_c=00000006, tx_bp=00007180, tx_bc=00000300 channel 0 statistics information st_txmit=75483010, st_rexmit=0409b43c, st_xmit_ctl=30000016 st_xmit_ack=9847755c st_xmit_lost=75483005, st_xmit_stop=0409b431 st_xmit_err=00000001, st_xmit_received=ff010201, st_rcv_valid=0000001f st_rcv_ackonly=00000014, st_rcv_igonore=00000017, st_rcv_lose=00000006 st_rcv_ov=0000002f,st_rcv_ov=00000000 st_rcv_stop=00000003, st_rcv_go=00000002 {1} 0 send=71 recv = 13 {1} 1 send=0 recv = 0 {1} 2 send=69 recv = 6 {1} 3 send=87 recv = 3 {2} 0 send=105 recv = 99 {0} 0 send=0 recv = 0 {0} 1 send=112 recv = 21 {0} 2 send=99 recv = 105 {0} 3 send=91 recv = 93 teoworld( 0) burst: pmGetSendBuffer: Connection timed out(110) {2} 1 send=109 recv = 14 {2} 2 send=0 recv = 0 {2} 3 send=102 recv = 95 {3} 0 send=93 recv = 91 teofarm2( 2) burst: pmGetSendBuffer: Connection timed out(110) {3} 1 send=105 recv = 27 {3} 2 send=95 recv = 102 {3} 3 send=0 recv = 0 teofarm4( 3) burst: pmGetSendBuffer: Connection timed out(110) よろしくお願い致します。 _________________________________________________________________ 無料で250MBの受信ボックスが使える「MSN Hotmail」 http://promotion.msn.co.jp/hotmail/ From s-sumi @ flab.fujitsu.co.jp Sat Dec 17 12:03:18 2005 From: s-sumi @ flab.fujitsu.co.jp (Shinji Sumimoto) Date: Sat, 17 Dec 2005 12:03:18 +0900 (JST) Subject: [SCore-users-jp] pm/ethernet error ( SCore 5.8.3 ) In-Reply-To: References: Message-ID: <20051217.120318.104057070.s-sumi@flab.fujitsu.co.jp> 畑田様 富士通研の住元です。 お使いのネットワークインターフェイスとスイッチの種類はなんでしょうか? あと、以下の結果をML宛にメールして頂けないでしょうか? $ cat /proc/pm/ethernet/0/info 実行例 ===================================================== $ cat /proc/pm/ethernet/0/info PM Ethernet 0330 Version : "$Id: pm_ethernet_dev.c,v 1.14 2005/10/10 04:49:13 s-sumi Exp $" Device : eth0 Irq : 0 MTU : 1468 Bytes Maxnodes : 512 MaxContext : 16 Intreap : off Checksum : off Dev error : 0 Header err : 0 Header cksum err: 0 Data cksum err : 0 Underrun err : 0 ===================================================== From: "hata kei" Subject: [SCore-users-jp] pm/ethernet error ( SCore 5.8.3 ) Date: Fri, 16 Dec 2005 02:24:48 +0900 Message-ID: kei_hata> 畑田です。 kei_hata> kei_hata> Fedora Core 3 をインストールした後に、SCore 5.8.3 をRPMでインストールしまし kei_hata> た。pm/ethernetのテストを行なったところ、 kei_hata> kei_hata> 1) Point-to-Point テスト (メッセージ) では通信がうまくいったりいかなかった kei_hata> りで、うまくいく場合でも非常に時間がかかってしまいます。 kei_hata> [root @ teoworld ~]# time rpmtest teofarm2 ethernet -dest 1 -ping kei_hata> 8 0.000941006 kei_hata> kei_hata> real 1m34.441s kei_hata> user 0m0.002s kei_hata> sys 0m0.006s kei_hata> kei_hata> 2) 総合テストでは以下のエラーがでてずっと止まってしまいます。 kei_hata> kei_hata> [root @ teoworld ~]# scstest -network ethernet kei_hata> -config:file=/opt/score5.8.3/etc/pm-ethernet.conf kei_hata> type=ethernet kei_hata> SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16) kei_hata> 0 -> 1: 13(d) -> 0(0): 0(0) kei_hata> Ethernet PM context #0 information (unit 0) kei_hata> channel 0 descripter information kei_hata> rx_p=00000036, rx_c=00000016, rx_bp=00000d80, rx_bc=00000580 kei_hata> tx_p=000000e3, tx_c=00000006, tx_bp=00007180, tx_bc=00000300 kei_hata> kei_hata> channel 0 statistics information kei_hata> st_txmit=75483010, st_rexmit=0409b43c, st_xmit_ctl=30000016 kei_hata> st_xmit_ack=9847755c st_xmit_lost=75483005, st_xmit_stop=0409b431 kei_hata> st_xmit_err=00000001, st_xmit_received=ff010201, st_rcv_valid=0000001f kei_hata> st_rcv_ackonly=00000014, st_rcv_igonore=00000017, st_rcv_lose=00000006 kei_hata> st_rcv_ov=0000002f,st_rcv_ov=00000000 kei_hata> st_rcv_stop=00000003, st_rcv_go=00000002 kei_hata> {1} 0 send=71 recv = 13 kei_hata> {1} 1 send=0 recv = 0 kei_hata> {1} 2 send=69 recv = 6 kei_hata> {1} 3 send=87 recv = 3 kei_hata> {2} 0 send=105 recv = 99 kei_hata> {0} 0 send=0 recv = 0 kei_hata> {0} 1 send=112 recv = 21 kei_hata> {0} 2 send=99 recv = 105 kei_hata> {0} 3 send=91 recv = 93 kei_hata> teoworld( 0) burst: pmGetSendBuffer: Connection timed out(110) kei_hata> {2} 1 send=109 recv = 14 kei_hata> {2} 2 send=0 recv = 0 kei_hata> {2} 3 send=102 recv = 95 kei_hata> {3} 0 send=93 recv = 91 kei_hata> teofarm2( 2) burst: pmGetSendBuffer: Connection timed out(110) kei_hata> {3} 1 send=105 recv = 27 kei_hata> {3} 2 send=95 recv = 102 kei_hata> {3} 3 send=0 recv = 0 kei_hata> teofarm4( 3) burst: pmGetSendBuffer: Connection timed out(110) kei_hata> kei_hata> よろしくお願い致します。 kei_hata> kei_hata> _________________________________________________________________ kei_hata> 無料で250MBの受信ボックスが使える「MSN Hotmail」 kei_hata> http://promotion.msn.co.jp/hotmail/ kei_hata> ------ Shinji Sumimoto, Fujitsu Labs From kei_hata @ hotmail.com Mon Dec 19 20:37:31 2005 From: kei_hata @ hotmail.com (hata kei) Date: Mon, 19 Dec 2005 20:37:31 +0900 Subject: [SCore-users-jp] pm/ethernet error ( SCore 5.8.3 ) Message-ID: 住元樣 畑田です。 使用しているネットワークインターフェイスは1000MBで、スイッチはNETGEARの16 ポートのgigabitスイッチです。SCore5.8.0がインストールされたマシンがそのうち7 つのポートを使って稼働中です。今回SCore5.8.3をインストールしたマシンがそのう ち4つのポートを使用しています。 サーバホストにおけるコマンドの実行結果は、 [root @ teoworld ~]# cat /proc/pm/ethernet/0/info PM Ethernet 0330 Version : "$Id: pm_ethernet_dev.c,v 1.14 2005/10/10 04:49:13 s-sumi Exp $" Device : eth0 Irq : 0 MTU : 1468 Bytes Maxnodes : 512 MaxContext : 16 Intreap : on Checksum : off Dev error : 1 Header err : 0 Header cksum err: 0 Data cksum err : 0 Underrun err : 0 Point-to-Point テスト (メッセージ) に対応したpingの結果は以下の様です。 [root @ teofarm1 ~]# ping teofarm2 PING teofarm2.lnf.infn.it (192.168.180.18) 56(84) bytes of data. 64 bytes from teofarm2.lnf.infn.it (192.168.180.18): icmp_seq=0 ttl=64 time=0.540 ms 64 bytes from teofarm2.lnf.infn.it (192.168.180.18): icmp_seq=1 ttl=64 time=0.083 ms 64 bytes from teofarm2.lnf.infn.it (192.168.180.18): icmp_seq=2 ttl=64 time=0.062 ms 64 bytes from teofarm2.lnf.infn.it (192.168.180.18): icmp_seq=3 ttl=64 time=0.162 ms 64 bytes from teofarm2.lnf.infn.it (192.168.180.18): icmp_seq=4 ttl=64 time=0.139 ms 64 bytes from teofarm2.lnf.infn.it (192.168.180.18): icmp_seq=5 ttl=64 time=0.122 ms 64 bytes from teofarm2.lnf.infn.it (192.168.180.18): icmp_seq=6 ttl=64 time=0.216 ms 64 bytes from teofarm2.lnf.infn.it (192.168.180.18): icmp_seq=7 ttl=64 time=0.191 ms --- teofarm2.lnf.infn.it ping statistics --- 8 packets transmitted, 8 received, 0% packet loss, time 7001ms rtt min/avg/max/mdev = 0.062/0.189/0.540/0.141 ms, pipe 2 よろしくお願い致します _________________________________________________________________ 迷惑メールやウイルスへの対策も万全「MSN Hotmail」 http://promotion.msn.co.jp/hotmail/ From s-sumi @ flab.fujitsu.co.jp Tue Dec 20 10:47:54 2005 From: s-sumi @ flab.fujitsu.co.jp (Shinji Sumimoto) Date: Tue, 20 Dec 2005 10:47:54 +0900 (JST) Subject: [SCore-users-jp] pm/ethernet error ( SCore 5.8.3 ) In-Reply-To: References: Message-ID: <20051220.104754.41652926.s-sumi@flab.fujitsu.co.jp> 畑田様 住元です。 /opt/score/etc/pm-ethernet.confに以下のパラメータを設定して 試してもらえますでしょうか? intreap 0 From: "hata kei" Subject: Re: [SCore-users-jp] pm/ethernet error ( SCore 5.8.3 ) Date: Mon, 19 Dec 2005 20:37:31 +0900 Message-ID: kei_hata> 住元樣 kei_hata> kei_hata> 畑田です。 kei_hata> kei_hata> 使用しているネットワークインターフェイスは1000MBで、スイッチはNETGEARの16 kei_hata> ポートのgigabitスイッチです。SCore5.8.0がインストールされたマシンがそのうち7 kei_hata> つのポートを使って稼働中です。今回SCore5.8.3をインストールしたマシンがそのう kei_hata> ち4つのポートを使用しています。 kei_hata> kei_hata> サーバホストにおけるコマンドの実行結果は、 kei_hata> kei_hata> [root @ teoworld ~]# cat /proc/pm/ethernet/0/info kei_hata> PM Ethernet 0330 kei_hata> Version : "$Id: pm_ethernet_dev.c,v 1.14 2005/10/10 04:49:13 kei_hata> s-sumi Exp $" kei_hata> Device : eth0 kei_hata> Irq : 0 kei_hata> MTU : 1468 Bytes kei_hata> Maxnodes : 512 kei_hata> MaxContext : 16 kei_hata> Intreap : on kei_hata> Checksum : off kei_hata> Dev error : 1 kei_hata> Header err : 0 kei_hata> Header cksum err: 0 kei_hata> Data cksum err : 0 kei_hata> Underrun err : 0 kei_hata> kei_hata> Point-to-Point テスト (メッセージ) に対応したpingの結果は以下の様です。 kei_hata> [root @ teofarm1 ~]# ping teofarm2 kei_hata> PING teofarm2.lnf.infn.it (192.168.180.18) 56(84) bytes of data. kei_hata> 64 bytes from teofarm2.lnf.infn.it (192.168.180.18): icmp_seq=0 ttl=64 kei_hata> time=0.540 ms kei_hata> 64 bytes from teofarm2.lnf.infn.it (192.168.180.18): icmp_seq=1 ttl=64 kei_hata> time=0.083 ms kei_hata> 64 bytes from teofarm2.lnf.infn.it (192.168.180.18): icmp_seq=2 ttl=64 kei_hata> time=0.062 ms kei_hata> 64 bytes from teofarm2.lnf.infn.it (192.168.180.18): icmp_seq=3 ttl=64 kei_hata> time=0.162 ms kei_hata> 64 bytes from teofarm2.lnf.infn.it (192.168.180.18): icmp_seq=4 ttl=64 kei_hata> time=0.139 ms kei_hata> 64 bytes from teofarm2.lnf.infn.it (192.168.180.18): icmp_seq=5 ttl=64 kei_hata> time=0.122 ms kei_hata> 64 bytes from teofarm2.lnf.infn.it (192.168.180.18): icmp_seq=6 ttl=64 kei_hata> time=0.216 ms kei_hata> 64 bytes from teofarm2.lnf.infn.it (192.168.180.18): icmp_seq=7 ttl=64 kei_hata> time=0.191 ms kei_hata> kei_hata> --- teofarm2.lnf.infn.it ping statistics --- kei_hata> 8 packets transmitted, 8 received, 0% packet loss, time 7001ms kei_hata> rtt min/avg/max/mdev = 0.062/0.189/0.540/0.141 ms, pipe 2 kei_hata> kei_hata> kei_hata> よろしくお願い致します kei_hata> kei_hata> _________________________________________________________________ kei_hata> 迷惑メールやウイルスへの対策も万全「MSN Hotmail」 kei_hata> http://promotion.msn.co.jp/hotmail/ kei_hata> ------ Shinji Sumimoto, Fujitsu Labs From kei_hata @ hotmail.com Tue Dec 20 18:05:24 2005 From: kei_hata @ hotmail.com (hata kei) Date: Tue, 20 Dec 2005 18:05:24 +0900 Subject: [SCore-users-jp] pm/ethernet error ( SCore 5.8.3 ) In-Reply-To: <20051220.104754.41652926.s-sumi@flab.fujitsu.co.jp> Message-ID: 住元様 畑田です。 サーバホストの/opt/score/etc/pm-ethernet.confに"intreap 0"を加えて、念のため 全てのマシンを再起動しました。 すると [root @ teoworld ~]# cat /proc/pm/ethernet/0/info PM Ethernet 0330 Version : "$Id: pm_ethernet_dev.c,v 1.14 2005/10/10 04:49:13 s-sumi Exp $" Device : eth0 Irq : 0 MTU : 1468 Bytes Maxnodes : 512 MaxContext : 16 Intreap : off Checksum : off Dev error : 0 Header err : 0 Header cksum err: 0 Data cksum err : 0 Underrun err : 0 となりIntreapがoffになりました。Dev errorは0になったのですが、その一時間後に 1になりまた0に戻ったりしています。 rpmtestは以前おかしいようで、 [root @ teoworld ~]# rpmtest teofarm1 ethernet -reply [root @ teoworld ~]# time rpmtest teofarm2 ethernet -dest 1 -ping 8 0.00015283 real 0m15.631s user 0m0.002s sys 0m0.005s [root @ teoworld ~]# time rpmtest teofarm4 ethernet -dest 1 -ping 8 0.000124942 real 0m12.850s user 0m0.003s sys 0m0.004s となり時間がかかってしまいます。また、 [root @ teoworld ~]# rpmtest teofarm2 ethernet -reply [root @ teoworld ~]# time rpmtest teofarm1 ethernet -dest 1 -ping pmGetSendBuffer: Invalid argument(22) real 0m0.368s user 0m0.001s sys 0m0.006s [root @ teoworld ~]# time rpmtest teofarm4 ethernet -dest 1 -ping pmReceive: Connection timed out(110) real 0m21.463s user 0m0.003s sys 0m0.004s となりエラーがでます。 われわれのclusterの構成は teoworld:サーバー兼計算ホスト teofarm1:計算ホスト teofarm2:計算ホスト teofarm4:計算ホスト で、それぞれ2 x xeon2.8GHzです。 一方総合テストでは少し状況が変わり、依然前のメールで報告したエラーがでるので すが、何回もやっているとたまに [root @ teoworld ~]# scstest -network ethernet -config:file=/opt/score5.8.3/etc/pm-ethernet.conf type=ethernet SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16) 50 K packets. (1.153e+02 kpps) 100 K packets. (1.076e+02 kpps) 150 K packets. (1.164e+02 kpps) 200 K packets. (1.366e+01 kpps) 250 K packets. (8.304e+01 kpps) 300 K packets. (6.819e+01 kpps) というように通信が行なわれたりもします。 scrunのhello.ccのテストは依然は何故か-nodes=4以上使うと計算が止まってしまっ ていたのが、"intreap 0"加えたあとは我々の全cpu数8まで使っても問題が発生しな くなりました。 よろしくお願い致します。 >From: Shinji Sumimoto >To: kei_hata @ hotmail.com >CC: score-users-jp @ pccluster.org, s-sumi @ flab.fujitsu.co.jp >Subject: Re: [SCore-users-jp] pm/ethernet error ( SCore 5.8.3 ) >Date: Tue, 20 Dec 2005 10:47:54 +0900 (JST) > >畑田様 > >住元です。 > >/opt/score/etc/pm-ethernet.confに以下のパラメータを設定して >試してもらえますでしょうか? > >intreap 0 > >From: "hata kei" >Subject: Re: [SCore-users-jp] pm/ethernet error ( SCore 5.8.3 ) >Date: Mon, 19 Dec 2005 20:37:31 +0900 >Message-ID: > >kei_hata> 住元樣 >kei_hata> >kei_hata> 畑田です。 >kei_hata> >kei_hata> 使用しているネットワークインターフェイスは1000MBで、スイッチは NETGEARの16 >kei_hata> ポートのgigabitスイッチです。SCore5.8.0がインストールされたマシン がそのうち7 >kei_hata> つのポートを使って稼働中です。今回SCore5.8.3をインストールしたマ シンがそのう >kei_hata> ち4つのポートを使用しています。 >kei_hata> >kei_hata> サーバホストにおけるコマンドの実行結果は、 >kei_hata> >kei_hata> [root @ teoworld ~]# cat /proc/pm/ethernet/0/info >kei_hata> PM Ethernet 0330 >kei_hata> Version : "$Id: pm_ethernet_dev.c,v 1.14 2005/10/10 04:49:13 >kei_hata> s-sumi Exp $" >kei_hata> Device : eth0 >kei_hata> Irq : 0 >kei_hata> MTU : 1468 Bytes >kei_hata> Maxnodes : 512 >kei_hata> MaxContext : 16 >kei_hata> Intreap : on >kei_hata> Checksum : off >kei_hata> Dev error : 1 >kei_hata> Header err : 0 >kei_hata> Header cksum err: 0 >kei_hata> Data cksum err : 0 >kei_hata> Underrun err : 0 >kei_hata> >kei_hata> Point-to-Point テスト (メッセージ) に対応したpingの結果は以下の様 です。 >kei_hata> [root @ teofarm1 ~]# ping teofarm2 >kei_hata> PING teofarm2.lnf.infn.it (192.168.180.18) 56(84) bytes of data. >kei_hata> 64 bytes from teofarm2.lnf.infn.it (192.168.180.18): icmp_seq=0 ttl=64 >kei_hata> time=0.540 ms >kei_hata> 64 bytes from teofarm2.lnf.infn.it (192.168.180.18): icmp_seq=1 ttl=64 >kei_hata> time=0.083 ms >kei_hata> 64 bytes from teofarm2.lnf.infn.it (192.168.180.18): icmp_seq=2 ttl=64 >kei_hata> time=0.062 ms >kei_hata> 64 bytes from teofarm2.lnf.infn.it (192.168.180.18): icmp_seq=3 ttl=64 >kei_hata> time=0.162 ms >kei_hata> 64 bytes from teofarm2.lnf.infn.it (192.168.180.18): icmp_seq=4 ttl=64 >kei_hata> time=0.139 ms >kei_hata> 64 bytes from teofarm2.lnf.infn.it (192.168.180.18): icmp_seq=5 ttl=64 >kei_hata> time=0.122 ms >kei_hata> 64 bytes from teofarm2.lnf.infn.it (192.168.180.18): icmp_seq=6 ttl=64 >kei_hata> time=0.216 ms >kei_hata> 64 bytes from teofarm2.lnf.infn.it (192.168.180.18): icmp_seq=7 ttl=64 >kei_hata> time=0.191 ms >kei_hata> >kei_hata> --- teofarm2.lnf.infn.it ping statistics --- >kei_hata> 8 packets transmitted, 8 received, 0% packet loss, time 7001ms >kei_hata> rtt min/avg/max/mdev = 0.062/0.189/0.540/0.141 ms, pipe 2 >kei_hata> >kei_hata> >kei_hata> よろしくお願い致します >kei_hata> >kei_hata> _________________________________________________________________ >kei_hata> 迷惑メールやウイルスへの対策も万全「MSN Hotmail」 >kei_hata> http://promotion.msn.co.jp/hotmail/ >kei_hata> >------ >Shinji Sumimoto, Fujitsu Labs _________________________________________________________________ MSNショッピングでXbox360を早速チェック! http://shopping.msn.co.jp/softcontent/softcontent.aspx?scmId=593 From kameyama @ pccluster.org Tue Dec 20 18:29:22 2005 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Tue, 20 Dec 2005 18:29:22 +0900 Subject: [SCore-users-jp] pm/ethernet error ( SCore 5.8.3 ) In-Reply-To: Your message of "Tue, 20 Dec 2005 18:05:24 JST." Message-ID: <20051220092922.3B75421EF52@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article "hata kei" wrotes: > となり時間がかかってしまいます。また、 > [root @ teoworld ~]# rpmtest teofarm2 ethernet -reply > > [root @ teoworld ~]# time rpmtest teofarm1 ethernet -dest 1 -ping > pmGetSendBuffer: Invalid argument(22) node 番号 1 から node 番号 2 へのテストでしたら time rpmtest teofarm1 ethernet -dest 2 -ping です. > [root @ teoworld ~]# time rpmtest teofarm4 ethernet -dest 1 -ping > pmReceive: Connection timed out(110) 同様に 3 から 2 へのテストでしたら time rpmtest teofarm4 ethernet -dest 2 -ping です. from Kameyama Toyohisa From honjo @ murata.co.jp Mon Dec 26 18:48:45 2005 From: honjo @ murata.co.jp (Hisaki Honjo) Date: Mon, 26 Dec 2005 18:48:45 +0900 Subject: [SCore-users-jp] set_new_handler =?iso-2022-jp?b?GyRCJEskRCQkJEYbKEI=?= Message-ID: <200512261848.DAD57333.OPPIK@murata.co.jp> 本庄です。 いつもお世話になっております。 SCoreについて不明な現象があるため投稿させていただきました。 内容は、set_new_handlerを使用した場合の挙動についてです。 通常のg++(2.96)ですと、set_new_handlerが有効に働き、 メモリアロケーションでエラーが発生すると セットしたコールバック関数が呼び出されます。 ところが、mpic++で同一のソースをコンパイルすると コールバック関数が呼び出されず、Killされてしまいます。 どうにかしてmpic++でもエラーをハンドルできるように したいのですが、どなたか判りますでしょうか? [ソース] ----------------------- #include #include #include void MyHandler(void) { fprintf( stderr, "Memory allocation error\n" ); exit( -1 ); } /***************************************** Main *****************************************/ int main(int argc, char ** argv) { const int nCol = 25000; const int nRow = 10000; int i; int j; set_new_handler( MyHandler ); double ** pTable = new double*[ nCol ]; for ( i=0; i