From hi-morita @ itg.hitachi.co.jp Fri Apr 2 15:05:06 2004 From: hi-morita @ itg.hitachi.co.jp (=?iso-2022-jp?b?aGktbW9yaXRhIBskQiF3GyhCIGl0Zy5oaXRhY2hpLmNvLmpw?=) Date: Fri, 2 Apr 2004 15:05:06 +0900 Subject: [SCore-users-jp] ノード内MPI及びノード間MPIの通信性能が劣化する原因 Message-ID: <200404020609.PAA07649@smgw01.itg.hitachi.co.jp.> 亀山様、堀様、住元様、SCore開発者殿 お世話になります。日立製作所の森田です。 下記現象に関して、何かお気づきの点がございましたら、ご教授頂けます でしょうか。お手数ですが、よろしくお願い致します。 1. 質問 あるメッセージサイズ間(1MBと2MB、30MBと40MB、40MBと50MB)でノード内 MPIまたはノード間MPIの通信性能が劣化する原因として、どのようなことが 考えられるでしょうか。 (MPICH-SCore(MPICH)の仕様により、通信方式が変更されているのでしょうか。) 2. 詳細 <<測定内容>> ノード内MPI及びノード間MPIの通信性能を調査するために、メッセージサイズ [*1]を変数として、ノード内CPU間の1/2ラウンド・トリップタイム[*2]を測定し 、スループット[*3]を算出しました。 <<測定結果(抜粋)>> ●ノード内MPIの通信性能 ----------------------------------------------------------- メッセージ | スループット [MByte/sec] サイズ[Byte] |------------------------------------------ | ゼロコピーON | ゼロコピーOFF ----------------------------------------------------------- 921600 | 2.27E+09 | 9.35E+08 1048576 | 2.34E+09 | 9.28E+08 2097152 | 7.03E+08 <-- | 7.98E+08 <-- 3145728 | 7.37E+08 | 8.50E+08 4194304 | 7.71E+08 | 8.58E+08 ----------------------------------------------------------- ●ノード間MPIの通信性能 ----------------------------------------------------------- メッセージ | スループット [MByte/sec] サイズ[Byte] |------------------------------------------ | ゼロコピーON | ゼロコピーOFF ----------------------------------------------------------- 921600 | 2.09E+08 | 1.30E+08 1048576 | 2.11E+08 | 1.30E+08 2097152 | 2.07E+08 <-- | 1.31E+08 3145728 | 2.10E+08 | 1.31E+08 4194304 | 2.12E+08 | 1.31E+08 〜 10485760 | 2.15E+08 | 1.31E+08 20971520 | 2.07E+08 | 1.31E+08 31457280 | 2.10E+08 | 1.31E+08 41943040 | 2.12E+08 | 1.22E+08 <-- 52428800 | 1.95E+08 <-- | 1.31E+08 62914560 | 2.13E+08 | 1.30E+08 73400320 | 2.14E+08 | 1.31E+08 ----------------------------------------------------------- <<現象>> (1) ノード内MPIの通信性能 ・メッセージサイズが1MBと2MBの間でスループットが劣化しました。 (ゼロコピー機能ON、OFFの場合で確認) (2) ノード間MPIの通信性能 ・メッセージサイズが1MBと2MBの間でスループットが劣化しました。 (ゼロコピー機能ONの場合) ・メッセージサイズが40MBと50MBの間でスループットが劣化しました。 (ゼロコピー機能ONの場合) ・メッセージサイズが30MBと40MBの間でスループットが劣化しました。 (ゼロコピー機能OFFの場合) <<測定環境>> 1. 測定機 HA8500/630(4way/1node, Memory 16GB)×2台 2. CPU Itanium2 L3 3MB 3. 並列実行環境 SCore 5.4 4. ノード間ネットワーク Myrinet2000 <<実行コマンド>> (1) ノード内MPIの通信性能 $ scrun -nodes=1x2 (実行ファイル) (2) ノード間MPIの通信性能 $ scrun -nodes=2x1 (実行ファイル) ------- [1] 1MB=1048576Bと換算しております。 [2] 1/2ラウンド・トリップタイム:あるCPUから別のCPUへのデータ転送時間 [3] スループット=(メッセージサイズ)/(1/2ラウンド・トリップタイム) 以上です。 From kameyama @ pccluster.org Fri Apr 2 16:18:25 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Fri, 02 Apr 2004 16:18:25 +0900 Subject: [SCore-users-jp] ノード内MPI 及びノード間MPI の通信性能が劣化する原因 In-Reply-To: Your message of "Fri, 02 Apr 2004 15:05:06 JST." <200404020609.PAA07649@smgw01.itg.hitachi.co.jp.> Message-ID: <20040402071419.5FF4A12894E@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <200404020609.PAA07649 @ smgw01.itg.hitachi.co.jp.> hi-morita @ itg.hitachi.co.jp wrotes: > 1. 質問 > > あるメッセージサイズ間(1MBと2MB、30MBと40MB、40MBと50MB)でノード内 > MPIまたはノード間MPIの通信性能が劣化する原因として、どのようなことが > 考えられるでしょうか。 > > (MPICH-SCore(MPICH)の仕様により、通信方式が変更されているのでしょうか。) > > 2. 詳細 > > <<測定内容>> > > ノード内MPI及びノード間MPIの通信性能を調査するために、メッセージサイズ > [*1]を変数として、ノード内CPU間の1/2ラウンド・トリップタイム[*2]を測定し > 、スループット[*3]を算出しました。 測定は 1 回だけ実行した結果でしょうか? それとも, 何回か行ったものの平均でしょうか? > <<測定結果(抜粋)>> > > ●ノード内MPIの通信性能 > > ----------------------------------------------------------- > メッセージ | スループット [MByte/sec] > サイズ[Byte] |------------------------------------------ > | ゼロコピーON | ゼロコピーOFF > ----------------------------------------------------------- > 921600 | 2.27E+09 | 9.35E+08 > 1048576 | 2.34E+09 | 9.28E+08 > 2097152 | 7.03E+08 <-- | 7.98E+08 <-- > 3145728 | 7.37E+08 | 8.50E+08 > 4194304 | 7.71E+08 | 8.58E+08 > ----------------------------------------------------------- zerocopy のほうは MPICH で PM に渡すのが 1 回に 1MB なので, それが影響していると思います. mpi_rmamtu オプションおよび mpi_locksize オプションで変化するかも しれません. scrun -nodes=1x2,mpi_rmamtu=2097152,mpi_locksize=2097152 ... (myrinet の場合は最大 1 MB なので, 増やせませんけど...) > ●ノード間MPIの通信性能 > > ----------------------------------------------------------- > メッセージ | スループット [MByte/sec] > サイズ[Byte] |------------------------------------------ > | ゼロコピーON | ゼロコピーOFF > ----------------------------------------------------------- > 921600 | 2.09E+08 | 1.30E+08 > 1048576 | 2.11E+08 | 1.30E+08 > 2097152 | 2.07E+08 <-- | 1.31E+08 > 3145728 | 2.10E+08 | 1.31E+08 > 4194304 | 2.12E+08 | 1.31E+08 > 〜 > 10485760 | 2.15E+08 | 1.31E+08 > 20971520 | 2.07E+08 | 1.31E+08 > 31457280 | 2.10E+08 | 1.31E+08 > 41943040 | 2.12E+08 | 1.22E+08 <-- > 52428800 | 1.95E+08 <-- | 1.31E+08 > 62914560 | 2.13E+08 | 1.30E+08 > 73400320 | 2.14E+08 | 1.31E+08 > ----------------------------------------------------------- 回りと比べて zerocopy on の 2 MB, 50 MB, zerocopy off の 40 MB だけが下がっていますね. (zerocopy on の 20 MB も 2 MB と同じ値ですけど, ここを問題にしないのはなぜでしょうか?) その host でほかのプロセスが動いていたり, SCore-D が裏で きちんと動いているか監視していたりしますので, その影響かもしれません. from Kameyama Toyohisa From yoshihiro551230 @ bc.wakwak.com Sat Apr 3 11:37:53 2004 From: yoshihiro551230 @ bc.wakwak.com (Yoshihiro ISHIKAWA) Date: Sat, 3 Apr 2004 11:37:53 +0900 Subject: [SCore-users-jp] mpich-1.2.5 is not installed Message-ID: <02c101c41924$bf1bbe40$6f501da0@airfoceone> メーリングリストの皆様 岩手大学の石川と申します.いつもお世話になっております. クラスタシステムをRedhat 9 + SCore 5.6.1に更新しようと思い, ソースからインストールし,mpif90コマンドを使用したところ, mpif90: mpich-1.2.5 is not installed というメッセージが出て,fortran90コンパイラでmpichが使用 できずに困っております. この症状が出るに至った経緯は次の通りです. OSはRedhat9のglibcを2.3.2-27.9.7にしたものを使用した. (1)SCoreを普通にコンパイル. (2)siteファイルを編集して,intel compiler 8.0を使用するようにした. (3)SCoreを再コンパイル. (4)mpif90コマンドを使用して,自作CFDコードをコンパイルし,実行   すると,segmentation faultが出た(SCore5.4+ifc7.1では正常に動作した).   以前の環境でコンパイルしたバイナリは動作した. (5)intel compiler 8.0との相性の可能性を考慮して,7.1に戻すことにした. (6)SCoreを一度削除してから,(1)〜(3)の手順をintel compiler 7.1で   行ったところ,mpif90: mpich-1.2.5 is not installedが出るようになった.   ちなみに,mpicc,mpic++,mpiCCなどは使用可能だった. 以上のような経緯ですが,解決策をご存じの方がいらっしゃいましたら, ご教授頂けるようお願い致します. ==================================== 岩手大学大学院工学研究科機械工学専攻 航空宇宙システム部門/船崎・山田研究室 修士課程1年 石川慶拓 Yoshihiro Ishikawa mail yoshihiro551230 @ bc.wakwak.com ==================================== From hi-morita @ itg.hitachi.co.jp Fri Apr 2 21:11:35 2004 From: hi-morita @ itg.hitachi.co.jp (=?iso-2022-jp?b?aGktbW9yaXRhIBskQiF3GyhCIGl0Zy5oaXRhY2hpLmNvLmpw?=) Date: Fri, 2 Apr 2004 21:11:35 +0900 Subject: [SCore-users-jp] ノード内MPI 及びノード間MPI の通信性能が劣化する原因 Message-ID: <200404021211.VAA28364@smgw01.itg.hitachi.co.jp.> 亀山様 日立製作所の森田です。 早々の回答有難うございます。 > > 測定は 1 回だけ実行した結果でしょうか? > それとも, 何回か行ったものの平均でしょうか? > ラウンドトリップタイムの測定を10回実施したものの平均です。 > zerocopy のほうは MPICH で PM に渡すのが 1 回に 1MB なので, > それが影響していると思います. > mpi_rmamtu オプションおよび mpi_locksize オプションで変化するかも > しれません. > scrun -nodes=1x2,mpi_rmamtu=2097152,mpi_locksize=2097152 ... > (myrinet の場合は最大 1 MB なので, 増やせませんけど...) ご教授有難うございました。 mpi_rmamtu オプション及びmpi_locksizeオプションに関してなのですが、 私がWeb等で調査した限り、どのような機能を与えるオプションであるかと いう情報を入手できませんでした。 mpi_rmamtu オプション及びmpi_locksizeオプションが、どのようなパラメータ を調整するオプションなのでしょうか。お手数ですが、ご教授頂けるでしょうか、 よろしくお願い致します。 (mpi_rmamtu オプションはリモートメモリアクセスでの1回の転送で送信できるデータ の最大値ですか?mpi_locksizeオプションはまったくわかりません。) > > 回りと比べて zerocopy on の 2 MB, 50 MB, > zerocopy off の 40 MB だけが下がっていますね. > (zerocopy on の 20 MB も 2 MB と同じ値ですけど, > ここを問題にしないのはなぜでしょうか?) > その host でほかのプロセスが動いていたり, SCore-D が裏で > きちんと動いているか監視していたりしますので, その影響かもしれません. > 亀山様のご指摘の通り、zerocopy on の 20 MBも問題だという認識です。 問題として取り上げなかったのは、私がzerocopy on の 20 MBはzerocopy on の 50 MBと同じ原因でスループットの値が下がっていると推察したためです。 下記メールにおける測定は1GBまで実施しており、メッセージサイズを増加 させていくと、「スループットの値が1度減少して、増加する」といった現象を 周期的に繰り返します。 周期的に1度スループットの値が下がるのは、下記のような可能性で生じている と理解するのは正しいでしょうか。お手数ですが、この点についても ご教授頂けるでしょうか、お手数ですがよろしくお願い致します。 > その host でほかのプロセスが動いていたり, SCore-D が裏で > きちんと動いているか監視していたりしますので, その影響かもしれません. 以上です。 >亀山です. > >In article <200404020609.PAA07649 @ smgw01.itg.hitachi.co.jp.> hi-morita @ itg.hitachi.co.jp wrotes: >> 1. 質問 >> >> あるメッセージサイズ間(1MBと2MB、30MBと40MB、40MBと50MB)でノード内 >> MPIまたはノード間MPIの通信性能が劣化する原因として、どのようなことが >> 考えられるでしょうか。 >> >> (MPICH-SCore(MPICH)の仕様により、通信方式が変更されているのでしょうか。) >> >> 2. 詳細 >> >> <<測定内容>> >> >> ノード内MPI及びノード間MPIの通信性能を調査するために、メッセージサイズ >> [*1]を変数として、ノード内CPU間の1/2ラウンド・トリップタイム[*2]を測定し >> 、スループット[*3]を算出しました。 > >測定は 1 回だけ実行した結果でしょうか? >それとも, 何回か行ったものの平均でしょうか? > >> <<測定結果(抜粋)>> >> >> ●ノード内MPIの通信性能 >> >> ----------------------------------------------------------- >> メッセージ | スループット [MByte/sec] >> サイズ[Byte] |------------------------------------------ >> | ゼロコピーON | ゼロコピーOFF >> ----------------------------------------------------------- >> 921600 | 2.27E+09 | 9.35E+08 >> 1048576 | 2.34E+09 | 9.28E+08 >> 2097152 | 7.03E+08 <-- | 7.98E+08 <-- >> 3145728 | 7.37E+08 | 8.50E+08 >> 4194304 | 7.71E+08 | 8.58E+08 >> ----------------------------------------------------------- > >zerocopy のほうは MPICH で PM に渡すのが 1 回に 1MB なので, >それが影響していると思います. >mpi_rmamtu オプションおよび mpi_locksize オプションで変化するかも >しれません. > scrun -nodes=1x2,mpi_rmamtu=2097152,mpi_locksize=2097152 ... >(myrinet の場合は最大 1 MB なので, 増やせませんけど...) > >> ●ノード間MPIの通信性能 >> >> ----------------------------------------------------------- >> メッセージ | スループット [MByte/sec] >> サイズ[Byte] |------------------------------------------ >> | ゼロコピーON | ゼロコピーOFF >> ----------------------------------------------------------- >> 921600 | 2.09E+08 | 1.30E+08 >> 1048576 | 2.11E+08 | 1.30E+08 >> 2097152 | 2.07E+08 <-- | 1.31E+08 >> 3145728 | 2.10E+08 | 1.31E+08 >> 4194304 | 2.12E+08 | 1.31E+08 >> 〜 >> 10485760 | 2.15E+08 | 1.31E+08 >> 20971520 | 2.07E+08 | 1.31E+08 >> 31457280 | 2.10E+08 | 1.31E+08 >> 41943040 | 2.12E+08 | 1.22E+08 <-- >> 52428800 | 1.95E+08 <-- | 1.31E+08 >> 62914560 | 2.13E+08 | 1.30E+08 >> 73400320 | 2.14E+08 | 1.31E+08 >> ----------------------------------------------------------- > >回りと比べて zerocopy on の 2 MB, 50 MB, >zerocopy off の 40 MB だけが下がっていますね. >(zerocopy on の 20 MB も 2 MB と同じ値ですけど, >ここを問題にしないのはなぜでしょうか?) >その host でほかのプロセスが動いていたり, SCore-D が裏で >きちんと動いているか監視していたりしますので, その影響かもしれません. > > from Kameyama Toyohisa > From kameyama @ pccluster.org Mon Apr 5 10:00:36 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Mon, 05 Apr 2004 10:00:36 +0900 Subject: [SCore-users-jp] ノード内MPI 及びノード間MPI の通信性能が劣化する原因 In-Reply-To: Your message of "Fri, 02 Apr 2004 21:11:35 JST." <200404021211.VAA28364@smgw01.itg.hitachi.co.jp.> Message-ID: <20040405005625.06EBE12894E@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <200404021211.VAA28364 @ smgw01.itg.hitachi.co.jp.> hi-morita @ itg.hitachi.co.jp wrotes: > > zerocopy のほうは MPICH で PM に渡すのが 1 回に 1MB なので, > > それが影響していると思います. > > mpi_rmamtu オプションおよび mpi_locksize オプションで変化するかも > > しれません. > > scrun -nodes=1x2,mpi_rmamtu=2097152,mpi_locksize=2097152 ... > > (myrinet の場合は最大 1 MB なので, 増やせませんけど...) > > ご教授有難うございました。 > > mpi_rmamtu オプション及びmpi_locksizeオプションに関してなのですが、 > 私がWeb等で調査した限り、どのような機能を与えるオプションであるかと > いう情報を入手できませんでした。 すみません. document には記載していません. > mpi_rmamtu オプション及びmpi_locksizeオプションが、どのようなパラメータ > を調整するオプションなのでしょうか。お手数ですが、ご教授頂けるでしょうか、 > よろしくお願い致します。 > > (mpi_rmamtu オプションはリモートメモリアクセスでの1回の転送で送信できるデータ > の最大値ですか?mpi_locksizeオプションはまったくわかりません。) PM で zerocopy 通信を行う場合, pmMLock() で領域を pindown し, pmRead() もしくは pmWrite() で実際にデータを転送します. mpi_locksize は一度に pmMLock() で pindown するときの最大値, mpi_rmamtu は pmRead() で転送するときの最大値です. > 問題として取り上げなかったのは、私がzerocopy on の 20 MBはzerocopy on > の 50 MBと同じ原因でスループットの値が下がっていると推察したためです。 > > 下記メールにおける測定は1GBまで実施しており、メッセージサイズを増加 > させていくと、「スループットの値が1度減少して、増加する」といった現象を > 周期的に繰り返します。 > > 周期的に1度スループットの値が下がるのは、下記のような可能性で生じている > と理解するのは正しいでしょうか。お手数ですが、この点についても > ご教授頂けるでしょうか、お手数ですがよろしくお願い致します。 SCore ではスケジューリングと multi user mode の場合で 500 ミリ秒 (scored の -ts オプションで変更可能), single user mode で 10 秒 (変更不可) ごとに監視のためのプロセスが走ります. 上記の "周期" がこの値に一致すれば, その影響であることが大きいと思います. from Kameyama Toyohisa From kameyama @ pccluster.org Mon Apr 5 11:10:39 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Mon, 05 Apr 2004 11:10:39 +0900 Subject: [SCore-users-jp] mpich-1.2.5 is not installed In-Reply-To: Your message of "Sat, 03 Apr 2004 11:37:53 JST." <02c101c41924$bf1bbe40$6f501da0@airfoceone> Message-ID: <20040405020628.00EAB128950@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <02c101c41924$bf1bbe40$6f501da0 @ airfoceone> "Yoshihiro ISHIKAWA" wrotes: > OSはRedhat9のglibcを2.3.2-27.9.7にしたものを使用した. > > (1)SCoreを普通にコンパイル. > > (2)siteファイルを編集して,intel compiler 8.0を使用するようにした. > > (3)SCoreを再コンパイル. > > (4)mpif90コマンドを使用して,自作CFDコードをコンパイルし,実行 >   すると,segmentation faultが出た(SCore5.4+ifc7.1では正常に動作した). >   以前の環境でコンパイルしたバイナリは動作した. Intel compiler 8 の fortran を使用するためには http://www.pccluster.org/pipermail/score-users-jp/2004-March/002022.html で書いた修正を行う必要があるのですが, これを行わないと そもそもコンパイルできないので, この修正は行ったのでしょうね... > (5)intel compiler 8.0との相性の可能性を考慮して,7.1に戻すことにした. > > (6)SCoreを一度削除してから,(1)〜(3)の手順をintel compiler 7.1で >   行ったところ,mpif90: mpich-1.2.5 is not installedが出るようになった. >   ちなみに,mpicc,mpic++,mpiCCなどは使用可能だった. fortran 90 が認識されていない可能性が高そうです. このやりかたでしたら score-src/out.`hostname`/mpi.build score-src/out.`hostname`/mpi.install に mpi を make したときの log が残っていると思います. そこにエラーは出ていないでしょうか? もしくは, checking whether the Fortran 90 compiler とかのテストはうまく行っているでしょうか? from Kameyama Toyohisa From yoshihiro551230 @ bc.wakwak.com Mon Apr 5 20:49:55 2004 From: yoshihiro551230 @ bc.wakwak.com (Yoshihiro ISHIKAWA) Date: Mon, 5 Apr 2004 20:49:55 +0900 Subject: [SCore-users-jp] mpich-1.2.5 is not installed References: <20040405020628.00EAB128950@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <039601c41b04$1d712530$6f501da0@airfoceone> 亀山様 岩手大学の石川です.ご返信ありがとうございます. > Intel compiler 8 の fortran を使用するためには > http://www.pccluster.org/pipermail/score-users-jp/2004-March/002022.html > で書いた修正を行う必要があるのですが, これを行わないと > そもそもコンパイルできないので, この修正は行ったのでしょうね... この過去ログを参考に,/opt/score/etc/compilers/intel8ファイルを作成し, siteファイルを以下のようにしました. === /opt/score/etc/compilers/site ==== mpicc intel8=icc gnu=gcc mpic++ intel8=icc gnu=g++ mpif77 intel8=ifort gnu=g77 mpif90 intel8=ifort mpc++ intel8=icc gnu=g++ omcc intel8=icc gnu=egcs omf77 intel8=icc gnu=egcs scorecc gnu=gcc intel8=icc scorec++ gnu=g++ intel8=icc scoref77 gnu=g77 intel8=ifort scoref90 intel8=ifort =================================== しかし,/opt/score/lib/*/libpthread.aは存在していなかったので削除 できませんでした. mpi.buildには下記のエラーが出ていました. ================================================================= /usr/include/bits/statfs.h(27): error: identifier "__SWORD_TYPE" is undefined __SWORD_TYPE f_type; ^ /usr/include/bits/statfs.h(28): error: identifier "__SWORD_TYPE" is undefined __SWORD_TYPE f_bsize;   ^ /usr/include/bits/statfs.h(43): error: identifier "__SWORD_TYPE" is undefined __SWORD_TYPE f_namelen;   ^ /usr/include/bits/statfs.h(44): error: identifier "__SWORD_TYPE" is undefined __SWORD_TYPE f_spare[6]; ^ compilation aborted for /opt/score/score-src/runtime/mpi/mpich-1.2.5/src/romio/adio/common/ad_fstype .c (code 2) make[7]: *** [ad_fstype.o] Error 2 Make failed in directory adio/common make[6]: *** [mpiolib] Error 1 make[5]: *** [mpio] Error 2 make[4]: *** [mpi-modules] Error 1 make[3]: *** [mpi] Error 2 make[3]: Leaving directory `/opt/score/score-src/runtime/mpi/mpich-1.2.5/build.i386-redhat9-linux2_4_in tel8' sed -e 's, @ RWC_INSTALL_ROOT@,/opt/score,g' \ -e 's, @ RWC_INSTALL_BINDIR@,/opt/score/bin,g' \ -e 's, @ PCCC_INSTALL_ROOT@,/opt/score,g' \ -e 's, @ PCCC_INSTALL_BINDIR@,/opt/score/bin,g' doc_install.sh > doc_install chmod +x doc_install make[2]: Leaving directory `/opt/score/score-src/runtime/mpi/mpich-1.2.5' make[1]: Leaving directory `/opt/score/score-src/runtime/mpi' =================================================================== また,score_compiler_listで確認すると,mpif90にifortが 使われるようにはなっていました. 以上のような状況ですが,原因の所在について思い当たることがあれば ご教授お願い致します. ==================================== 岩手大学大学院工学研究科機械工学専攻 航空宇宙システム部門/船崎・山田研究室 修士課程1年 石川慶拓 Yoshihiro Ishikawa mail yoshihiro551230 @ bc.wakwak.com ==================================== From iida @ st-systems.co.jp Tue Apr 6 00:11:23 2004 From: iida @ st-systems.co.jp (Masayasu Iida) Date: Tue, 06 Apr 2004 00:11:23 +0900 Subject: [SCore-users-jp] SCore-D PanicとBroadcom5704 NIC使用時の問題について Message-ID: <4071771B.8060104@st-systems.co.jp> サイエンステクノロジーシステムズの飯田と申します。 マスターノード:1ノード、計算ノード:111ノードという構成で SCore5.6.1を使用してクラスタにNas Parallelベンチマークを 流しているのですが2点問題が出ております、 アドバイス頂けますと幸いです。 ○問題点 1. NAS Parallelベンチマーク実行中に、   SCore-D Panic freezing timed outが頻発する。   その際にはノードがロックされ次のジョブを実行できない。 2. BroadCom5704での性能が出ない。   rpmtestのpingpongテストの値:8 0.00309027 scstestのバーストテスト時も50k 100k 150kとメッセージ数が   上がる際、1秒以上待たされる感じで非常に遅い。 ○構成について 70ノード: CPU Xeon 2.4GHz x 2 NIC: BroadCom5703 42ノード: CPU Xeon 2.8GHz x 2 NIC: BroadCom5704 14ノード毎にL2スイッチに接続され、合計8つのスイッチが さらに上位のL2スイッチに接続されています。 70ノードはこれまでSCore5.4.0を使用しNPBも問題なく動作して いた実績があります。今回、新規に42ノードを追加しSCore5.6.1 でクラスタを再構築しています。また、上位のスイッチを 別メーカーのものに変更しています。 ネットワークはGigaEthernetを使用しています。 カーネルは2.4.21カーネルにパッチを当ててコンパイルしています。 NICのドライバは70ノード(BroadCom 5703)については 2.4.21カーネルに含まれるbcm5700(Ver. 5.0.5)を使用しています。 42ノード(BroadCom 5704)は2.4.21カーネルのbcm5700 自体はロードされるのですが、eth0 Link downとなり 通信ができないため、BroadComのサイトからダウンロードした Ver7.1.9またはVer7.1.22のbcm5700をコンパイルし使っています。 マスタノードは計算ノードに含めずカーネルはRedHatの 2.4.20-28を使用しています。 NPBはSCore-Dを起動した状態で、scrunコマンドを使って シェルまたはOpenPBSを使って連続的に流しています。 但し、ジョブとジョブの間にはsleepを入れるようにしています。 ○1の問題に関する検証について 1.スイッチについて SCore-D Panicの原因として変更したスイッチの可能性を 考え、14ノード(今回変更したスイッチとは別の元々使用していた 下位のスイッチのみ使用)で同様にNPBを流しましたが、 やはり同様の現象が出ました。 2.maxsendとbackoffの調整 maxsendとbackoffをそれぞれ下記のように変更して 試しましたが、現象が発生。 maxsend backoff 8 2400 16 3600 32 7200 3.カーネルの変更 独自にコンパイルしたものではなくEITを使ってインストール されるカーネルを使用しジョブを流しましたが、 やはり同様の現象が起こります。 ○2の問題に関する検証について linux-2.4.21に含まれるbcm5700のバージョンを 7.1.9、7.1.22に変更して見ましたが、 scstest時の動作は変わりません。 チェックすべき事項がございましたら、アドバイス 頂けますと幸いです。 ------------------------------------------------ 飯田 昌康 サイエンス・テクノロジー・システムズ株式会社 システム部 Tel:03-5774-6833 Fax:03-5774-5180 E-mail: iida @ st-systems.co.jp Web: http://www.st-systems.co.jp 〒150-0002 東京都渋谷区渋谷1-20-1 三進ビル4F ------------------------------------------------ From kameyama @ pccluster.org Tue Apr 6 10:24:19 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Tue, 06 Apr 2004 10:24:19 +0900 Subject: [SCore-users-jp] SCore-D PanicとBroadcom5704 NIC使用時の問題について In-Reply-To: Your message of "Tue, 06 Apr 2004 00:11:23 JST." <4071771B.8060104@st-systems.co.jp> Message-ID: <20040406012004.CF0E412894E@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <4071771B.8060104 @ st-systems.co.jp> Masayasu Iida wrotes: > 2. BroadCom5704での性能が出ない。 >   rpmtestのpingpongテストの値:8 0.00309027 > scstestのバーストテスト時も50k 100k 150kとメッセージ数が >   上がる際、1秒以上待たされる感じで非常に遅い。 これをどうにかする必要がありそうですね. > 42ノード(BroadCom 5704)は2.4.21カーネルのbcm5700 > 自体はロードされるのですが、eth0 Link downとなり > 通信ができないため、BroadComのサイトからダウンロードした > Ver7.1.9またはVer7.1.22のbcm5700をコンパイルし使っています。 はい. この bug は 6.2.4 で fix されたもので, SCore 5.6.1 に含まれている 5.0.5 では動かないかもしれません. > 2.maxsendとbackoffの調整 > maxsendとbackoffをそれぞれ下記のように変更して > 試しましたが、現象が発生。 > > maxsend backoff > 8 2400 > 16 3600 > 32 7200 config file のなかで intreap 0 を指定してみてください. from Kameyama Toyohisa From kameyama @ pccluster.org Tue Apr 6 11:47:19 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Tue, 06 Apr 2004 11:47:19 +0900 Subject: [SCore-users-jp] mpich-1.2.5 is not installed In-Reply-To: Your message of "Mon, 05 Apr 2004 20:49:55 JST." <039601c41b04$1d712530$6f501da0@airfoceone> Message-ID: <20040406024305.0B68512894E@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <039601c41b04$1d712530$6f501da0 @ airfoceone> "Yoshihiro ISHIKAWA" wrotes: > mpi.buildには下記のエラーが出ていました. > > ================================================================= > /usr/include/bits/statfs.h(27): error: identifier "__SWORD_TYPE" is > undefined > __SWORD_TYPE f_type; > ^ > /usr/include/bits/statfs.h(28): error: identifier "__SWORD_TYPE" is > undefined > __SWORD_TYPE f_bsize; こちらでは成功しました. (glibc は 2.3.2-11.9 ですけど, 下記ファイルは 2.3.2-27.9.7 でも変りませんでした.) __SWORD_TYPE は statfs.h から include されている /usr/include/bits/types.h で定義されています. この定義の選択に __WORDSIZE の設定が必要ですが, この定義は /usr/include/bits/wordsize.h で行われています. というわけで, 通常はこのようなエラーは起こらないと思うのですが, 上記の 2 つのファイルのうちどちらかが存在しない, ということはないですよね? あるとしたら, ad_fstype.c を -E つきで gcc にかけてマクロ部分を展開 してみれば原因がわかるかもしれません. from Kameyama Toyohisa From haddock @ webgroup.co.jp Tue Apr 6 12:11:52 2004 From: haddock @ webgroup.co.jp (haddock) Date: Tue, 06 Apr 2004 12:11:52 +0900 Subject: [SCore-users-jp] Install Problem Message-ID: <40721FF8.2050606@webgroup.co.jp> みなさんこんにちは    初歩的な質問で大変申し訳ないが、 client machineにfloppyを差込み、起動すると server machineのeit gui画面にclient machine のmac addressが表示されるまで順調ですが、 その先へは進んでくれません。  どこに原因はあるのでしょうか。            haddoc From kameyama @ pccluster.org Tue Apr 6 12:18:09 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Tue, 06 Apr 2004 12:18:09 +0900 Subject: [SCore-users-jp] Install Problem In-Reply-To: Your message of "Tue, 06 Apr 2004 12:11:52 JST." <40721FF8.2050606@webgroup.co.jp> Message-ID: <20040406031354.AB43712894E@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <40721FF8.2050606 @ webgroup.co.jp> haddock wrotes: >    初歩的な質問で大変申し訳ないが、 > client machineにfloppyを差込み、起動すると > server machineのeit gui画面にclient machine > のmac addressが表示されるまで順調ですが、 > その先へは進んでくれません。 > >  どこに原因はあるのでしょうか。 compute host で NFS mount が失敗しているのかもしれません. compute host で SHIFT-CNTL-F3 を押して, 何か変なメッセージがないか みてください. from Kameyama Toyohisa From kazsi @ gsc.riken.go.jp Tue Apr 6 12:26:26 2004 From: kazsi @ gsc.riken.go.jp (Kazuro Shimokawa) Date: Tue, 06 Apr 2004 12:26:26 +0900 Subject: [SCore-users-jp] Opteron(AMD64) Message-ID: <20040406121057.EC67.KAZSI@gsc.riken.go.jp> 理化学研究所 GSC の下川と申します。 産総研時代には大変お世話になりました。 つまらない質問なのですが、現在私のところで PC クラスタを 導入予定なのですが、Opteron クラスタを組む可能性も出てい ます。恐らくここ二年ほどを考えると Opteron にするメリット は一台あたりのメモリ容量程度でしかないので、必要となるメ モリ容量を分散することができるクラスタシステムとはあまり 縁がないかもしれません。 ですからあくまで参考程度の質問なのですが、SCore は IA-32e (AMD64)には既に対応しているようですが、これらは安定して動 作しているのでしょうか? そして導入実績、あるいはプログラ ミングに際して特に気をつける点など、何かノウハウが必要な 事があれば教えていただけないでしょうか。 抽象的な質問で申し訳ありませんが、よろしくお願い致します。 理化学研究所 下川和郎 -- Kazuro Shimokawa From yoshihiro551230 @ bc.wakwak.com Tue Apr 6 12:36:45 2004 From: yoshihiro551230 @ bc.wakwak.com (Yoshihiro ISHIKAWA) Date: Tue, 6 Apr 2004 12:36:45 +0900 Subject: [SCore-users-jp] mpich-1.2.5 is not installed References: <20040406024305.0B68512894E@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <03f401c41b88$62ec92f0$6f501da0@airfoceone> 亀山様 岩手大学の石川です.ご返信ありがとうございます. /usr/include/bits/types.h /usr/include/bits/wordsize.h は共に存在していました.その後,色々なパターンで 試してみましたが,mpich-1.2.5 is not installedが出てしまいました. glibcをアップデートしないでコンパイルしてみましたが, それでもダメでした. 他に何か原因となるようなことは考えられますでしょうか? ==================================== 岩手大学大学院工学研究科機械工学専攻 航空宇宙システム部門/船崎・山田研究室 修士課程2年 石川慶拓 Yoshihiro Ishikawa mail yoshihiro551230 @ bc.wakwak.com ==================================== From matsu @ is.titech.ac.jp Tue Apr 6 12:43:53 2004 From: matsu @ is.titech.ac.jp (Satoshi Matsuoka) Date: Tue, 06 Apr 2004 12:43:53 +0900 Subject: [SCore-users-jp] Opteron(AMD64) In-Reply-To: <20040406121057.EC67.KAZSI@gsc.riken.go.jp> References: <20040406121057.EC67.KAZSI@gsc.riken.go.jp> Message-ID: <20040406123122.86D0.MATSU@is.titech.ac.jp> On Tue, 06 Apr 2004 12:26:26 +0900 Kazuro Shimokawa wrote: kazsi> kazsi> 理化学研究所 GSC の下川と申します。 kazsi> kazsi> 産総研時代には大変お世話になりました。 kazsi> kazsi> つまらない質問なのですが、現在私のところで PC クラスタを kazsi> 導入予定なのですが、Opteron クラスタを組む可能性も出てい kazsi> ます。恐らくここ二年ほどを考えると Opteron にするメリット kazsi> は一台あたりのメモリ容量程度でしかないので、必要となるメ kazsi> モリ容量を分散することができるクラスタシステムとはあまり kazsi> 縁がないかもしれません。 それは違います。 Opteronのメリットは、Pentium/Xeon系と比較して、メモリバンド幅が高く、か つlatencyが低いことです。特に共有バスでメモリを共有するのでメモリバンド 幅が一定以下となるXeonと比較すると、 プロセッサ数にほぼ比例してメモリバンド幅が高まるので、1UサーバなどのDual Processor構成では有利になります。 この差はSpecFP Rateなどに如実に現れていて、流体とか、(遺伝子などの)デー タマイニングなどでは有利になるでしょう。 逆にSingle Processor環境では、メモリバンド幅は両者等しいので、Xeonの高ク ロックおよびHyperthreadingが性能的に有利になることもあります。また、 Extreme EditionではL2キャッシュが大きくなります。 また、これはAMD64(ほぼ=IA32-e)のISAとは別な議論ですので、話を切り分ける 必要があるでしょう。Opteronでも、IA32 OSで使用する限りは「メモリの高速な IA32ノード」なので。 松岡@東工大 kazsi> kazsi> ですからあくまで参考程度の質問なのですが、SCore は IA-32e kazsi> (AMD64)には既に対応しているようですが、これらは安定して動 kazsi> 作しているのでしょうか? そして導入実績、あるいはプログラ kazsi> ミングに際して特に気をつける点など、何かノウハウが必要な kazsi> 事があれば教えていただけないでしょうか。 kazsi> 抽象的な質問で申し訳ありませんが、よろしくお願い致します。 kazsi> kazsi> kazsi> 理化学研究所 kazsi> 下川和郎 kazsi> kazsi> -- kazsi> Kazuro Shimokawa kazsi> kazsi> _______________________________________________ kazsi> SCore-users-jp mailing list kazsi> SCore-users-jp @ pccluster.org kazsi> http://www.pccluster.org/mailman/listinfo/score-users-jp 東京工業大学 学術国際情報センター 教授 松岡聡 〒152-8550 東京都目黒区大岡山 2-12-1 (西7号館2F) Tel/Fax 03-5734-3876 (西7号館2F206) 携帯090-5811-8746 (FOMA-TV電話可能) E-mail: matsu @ is.titech.ac.jp 秘書:近藤、研究支援秘書:吉村 secretary @ matsulab.is.titech.ac.jp From ishikawa @ is.s.u-tokyo.ac.jp Tue Apr 6 13:28:51 2004 From: ishikawa @ is.s.u-tokyo.ac.jp (Yutaka Ishikawa) Date: Tue, 06 Apr 2004 13:28:51 +0900 (JST) Subject: [SCore-users-jp] Opteron(AMD64) In-Reply-To: <20040406121057.EC67.KAZSI@gsc.riken.go.jp> References: <20040406121057.EC67.KAZSI@gsc.riken.go.jp> Message-ID: <20040406.132851.607961714.ishikawa@is.s.u-tokyo.ac.jp> > ですからあくまで参考程度の質問なのですが、SCore は IA-32e > (AMD64)には既に対応しているようですが、これらは安定して動 > 作しているのでしょうか? そして導入実績、あるいはプログラ 現在、PCクラスタコンソーシアムとして、Opteronプロセッサをサポートして いるわけではありません。コンソーシアムとして配布前に確認可能なクラスタ を持っていないためです。 このような状況ですので、コンソーシアムとしてOpteron回りの質問がきても 対応は出来ません。ただ、コンソーシアムメンバ企業では、Opteronの移植& サポートもされているところもあるかと思います。 #法人会員リストのリンクからたどって分かるかというと、どうもそんな情報は #出てきそうにないけど。。。 今後、コンソーシアムで使用可能なOpteronクラスタが出てくれば、状況は変 わるかとも思いますが、現状は、上記の通りです。 石川@PCクラスタコンソーシアム会長 From kameyama @ pccluster.org Tue Apr 6 13:33:05 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Tue, 06 Apr 2004 13:33:05 +0900 Subject: [SCore-users-jp] mpich-1.2.5 is not installed In-Reply-To: Your message of "Tue, 06 Apr 2004 12:36:45 JST." <03f401c41b88$62ec92f0$6f501da0@airfoceone> Message-ID: <20040406042850.867DE12894E@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <03f401c41b88$62ec92f0$6f501da0 @ airfoceone> "Yoshihiro ISHIKAWA" wrotes: > 岩手大学の石川です.ご返信ありがとうございます. > > /usr/include/bits/types.h > /usr/include/bits/wordsize.h > > は共に存在していました. どうもこれに成功しないと /opt/score/score-src/runtime/mpi/mpich-1.2.5/src/Makefile.in を変更しない限り Fortran 90 のためのライブラリを作成してくれないようですね. current directory を /opt/score/score-src/runtime/mpi/mpich-1.2.5/build.i386-redhat9-linux2_4_intel8/romio/adio/common にして, 以下のコマンドを実行し, 出力を送ってください. /opt/score/score-src/runtime/mpi/mpich-1.2.5/build.i386-redhat9-linux2_4_intel8/bin/mpicc -compiler=intel8 -compiler=intel8 -DHAVE_MPICHCONF_H -compiler=intel8 -O -DFORTRANUNDERSCORE -DHAVE_ROMIOCONF_H -I/opt/score/score-src/runtime/mpi/mpich-1.2.5/build.i386-redhat9-linux2_4_intel8/include -I/opt/score/score-src/runtime/mpi/mpich-1.2.5/src/romio/adio/common/../include -I../include -E /opt/score/score-src/runtime/mpi/mpich-1.2.5/src/romio/adio/common/ad_fstype.c これは, 石川さんのところでエラーのあったファイルのコンパイルの -c の部分を -E に変更したものです. (昨日の mail で引用された mpi.build の 1 行前にあるものと一緒だと 思います. -E 以外の部分で違っているところがありましたら, mpi.build の内容の ほうを優先してください.) これによって, 標準出力に ad_fstype.c をプリプロセッサだけをかけたものが 出力されます. 正常であれば, エラーのあった場所は int f_type; などと変換されるはずなのですが, 多分, __SWORD_TYPE f_type; のままになっていると思います. これによって知りたいのは上記の事項の確認だけではなく, 途中の #line 1 "/usr/include/bits/types.h" などの行をみることにより, /usr/include/bits/types.h などが正常に include されているかどうかです. from Kameyama Toyohisa From yoshihiro551230 @ bc.wakwak.com Tue Apr 6 13:53:46 2004 From: yoshihiro551230 @ bc.wakwak.com (Yoshihiro ISHIKAWA) Date: Tue, 6 Apr 2004 13:53:46 +0900 Subject: [SCore-users-jp] mpich-1.2.5 is not installed References: <20040406042850.867DE12894E@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <040d01c41b93$2507ff00$6f501da0@airfoceone> 亀山様 岩手大学の石川です. 早速のご回答ありがとうございます.出力結果を添付いたします. > 正常であれば, エラーのあった場所は > int f_type; > などと変換されるはずなのですが, 多分, > __SWORD_TYPE f_type; > のままになっていると思います. 確かに,__SWORD_TYPE f_type;のままになっていました. お手数ですが,よろしくお願い致します. ==================================== 岩手大学大学院工学研究科機械工学専攻 航空宇宙システム部門/船崎・山田研究室 修士課程2年 石川慶拓 Yoshihiro Ishikawa mail yoshihiro551230 @ bc.wakwak.com ==================================== -------------- next part -------------- 文字コード指定の無い添付文書を保管しました... 名前: log.txt URL: From kameyama @ pccluster.org Tue Apr 6 14:20:24 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Tue, 06 Apr 2004 14:20:24 +0900 Subject: [SCore-users-jp] mpich-1.2.5 is not installed In-Reply-To: Your message of "Tue, 06 Apr 2004 13:53:46 JST." <040d01c41b93$2507ff00$6f501da0@airfoceone> Message-ID: <20040406051609.3C5F312894E@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <040d01c41b93$2507ff00$6f501da0 @ airfoceone> "Yoshihiro ISHIKAWA" wrotes: > 早速のご回答ありがとうございます.出力結果を添付いたします. だいたいわかりました. > #line 1 "/opt/intel/compiler70/ia32/substitute_headers/sys/types.h" 原因を示すのはこの行だと思います. intel compiler 7 がこのファイルを作成しているのですが, (多分, Intel compiler 8 でも環境変数 IA32ROOT を /opt/intel/compiler70/ia32 に設定しているとここを参照するのだと思います.) これが邪魔しているようです. 多分, このファイルは redhat 7.3 のときに不具合があり, redhat 7.3 の header file をもとにしていじったものだと思います. redhat 8.0 になって, types.h の中身が変更になり, この置き換えも不要になっています. よって, このファイルは intel compiler 7 を使用する場合でも同様の 問題を起こすだけなので, 削除してしまっても問題ないと思われます. ということで, 上記ファイルを削除するか, 環境変数 IA32ROOT を 設定しなければこの部分はコンパイルできると思います. from Kameyama Toyohisa From yoshihiro551230 @ bc.wakwak.com Tue Apr 6 16:08:44 2004 From: yoshihiro551230 @ bc.wakwak.com (Yoshihiro ISHIKAWA) Date: Tue, 6 Apr 2004 16:08:44 +0900 Subject: [SCore-users-jp] mpich-1.2.5 is not installed References: <20040406051609.3C5F312894E@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <044701c41ba5$ffefb5b0$6f501da0@airfoceone> 亀山様 岩手大学の石川です.ご回答ありがとうございました. しかし, /opt/intel/compiler70/ia32/substitute_headers/sys/types.h を削除し,環境変数IA32ROOTをクリアしてコンパイルしたのですが, やはり同じエラーが出ました. 他の原因が考えられれば,ご教授お願い致します. ==================================== 岩手大学大学院工学研究科機械工学専攻 航空宇宙システム部門/船崎・山田研究室 修士課程2年 石川慶拓 Yoshihiro Ishikawa mail yoshihiro551230 @ bc.wakwak.com ==================================== From kameyama @ pccluster.org Tue Apr 6 16:12:16 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Tue, 06 Apr 2004 16:12:16 +0900 Subject: [SCore-users-jp] mpich-1.2.5 is not installed In-Reply-To: Your message of "Tue, 06 Apr 2004 16:08:44 JST." <044701c41ba5$ffefb5b0$6f501da0@airfoceone> Message-ID: <20040406070801.2A90F12894E@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <044701c41ba5$ffefb5b0$6f501da0 @ airfoceone> "Yoshihiro ISHIKAWA" wrotes: > しかし, > > /opt/intel/compiler70/ia32/substitute_headers/sys/types.h > > を削除し,環境変数IA32ROOTをクリアしてコンパイルしたのですが, > やはり同じエラーが出ました. 同様に, エラーが起こったプログラムの -c を -E にした結果を 送っていただけないでしょうか? from Kameyama Toyohisa From kameyama @ pccluster.org Tue Apr 6 16:36:30 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Tue, 06 Apr 2004 16:36:30 +0900 Subject: [SCore-users-jp] mpich-1.2.5 is not installed In-Reply-To: Your message of "Tue, 06 Apr 2004 16:08:44 JST." <044701c41ba5$ffefb5b0$6f501da0@airfoceone> Message-ID: <20040406073215.2EAB612894E@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <044701c41ba5$ffefb5b0$6f501da0 @ airfoceone> "Yoshihiro ISHIKAWA" wrotes: > しかし, > > /opt/intel/compiler70/ia32/substitute_headers/sys/types.h > > を削除し,環境変数IA32ROOTをクリアしてコンパイルしたのですが, > やはり同じエラーが出ました. すみません. /opt/intel/compiler70/ia32/substitute_headers/bits/types.h も削除してください. (こちらのほうが重要でした.) まだ /opt/intel/compiler70/ia32 のしたを探しているようですが 使用しているのは intel compiler 7 のほうですね. from Kameyama Toyohisa From yoshihiro551230 @ bc.wakwak.com Tue Apr 6 17:52:38 2004 From: yoshihiro551230 @ bc.wakwak.com (Yoshihiro ISHIKAWA) Date: Tue, 6 Apr 2004 17:52:38 +0900 Subject: [SCore-users-jp] mpich-1.2.5 is not installed References: <20040406073215.2EAB612894E@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <049c01c41bb4$835140a0$6f501da0@airfoceone> 亀山様 岩手大学の石川です.度重なるご助言感謝いたします. とりあえず,mpich-1.2.5のコンパイルにおいてエラーは 出ず,インストールもエラー無しで行われたようですが, やはりmpif90:mpich-1.2.5 is not installedと出てしまいます. また, /opt/score/mpi/mpich-1.2.5/i386-redhat9-linux2_4_intel/bin にはmpif90が存在していませんでした. この後はどのように対処すればよろしいでしょうか? 手動でmpif90を作成する方法等ございましたらお教え下さい. ==================================== 岩手大学大学院工学研究科機械工学専攻 航空宇宙システム部門/船崎・山田研究室 修士課程2年 石川慶拓 Yoshihiro Ishikawa mail yoshihiro551230 @ bc.wakwak.com ==================================== From kameyama @ pccluster.org Tue Apr 6 18:13:01 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Tue, 06 Apr 2004 18:13:01 +0900 Subject: [SCore-users-jp] mpich-1.2.5 is not installed In-Reply-To: Your message of "Tue, 06 Apr 2004 17:52:38 JST." <049c01c41bb4$835140a0$6f501da0@airfoceone> Message-ID: <20040406090845.B8CEE12894E@neal.il.is.s.u-tokyo.ac.jp> 亀山です, In article <049c01c41bb4$835140a0$6f501da0 @ airfoceone> "Yoshihiro ISHIKAWA" wrotes: > とりあえず,mpich-1.2.5のコンパイルにおいてエラーは > 出ず,インストールもエラー無しで行われたようですが, > やはりmpif90:mpich-1.2.5 is not installedと出てしまいます. mpich の config のところで, fortran 90 が認識できなかった可能性が あります. configure の最初のほうで, 以下のように fortran 90 のチェックを行っています. checking whether the Fortran 77 compiler (/opt/score//bin/scoref77 -compiler=intel8 ) works... yes checking whether the Fortran 77 compiler (/opt/score//bin/scoref77 -compiler=intel8 ) is a cross-compiler... no checking whether we are using GNU Fortran 77... no checking for extension for Fortran 90 programs... f90 checking whether the Fortran 90 compiler (/opt/score//bin/scoref90 -compiler=intel8 ) works... yes checking whether the Fortran 90 compiler (/opt/score//bin/scoref90 -compiler=intel8 ) is a cross-compiler... no さらにこのあとで細かいチェックを行っています. このあたりの message をみればどこで認識できなかったかわかると思うのですが... > 手動でmpif90を作成する方法等ございましたらお教え下さい. 可能性としては /opt/score/score-src/runtime/mpi/mpich-1.2.5/src/src/fortran/src/mpif90.in /opt/score/score-src/runtime/mpi/mpich-1.2.5/src/src/fortran/src/mpif90.conf.in を適当に編集して /opt/score/mpi/mpich-1.2.5/i386-redhat9-linux2_4_inte1/etc/mpif90.cof /opt/score/mpi/mpich-1.2.5/i386-redhat9-linux2_4_inte1/bin/mpif90 にコピーすれば良いのですが... (但し, Fortran 90 の module を使用したい場合は別途作成する 必要がありますけど...) from Kameyama Toyohisa From yoshihiro551230 @ bc.wakwak.com Tue Apr 6 18:46:08 2004 From: yoshihiro551230 @ bc.wakwak.com (Yoshihiro ISHIKAWA) Date: Tue, 6 Apr 2004 18:46:08 +0900 Subject: [SCore-users-jp] mpich-1.2.5 is not installed References: <20040406093418.92A1D12894E@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <04b401c41bbb$fd0e1790$6f501da0@airfoceone> 亀山様 岩手大学の石川です.度々ありがとうございます. mpi.buildを調べてみたところ,下記のような記述がありました. Fortran support being turned off fortranをサポートしない設定になってしまっているようですが, これを回避するにはどうすれば良いでしょうか? ==================================== 岩手大学大学院工学研究科機械工学専攻 航空宇宙システム部門/船崎・山田研究室 修士課程2年 石川慶拓 Yoshihiro Ishikawa mail yoshihiro551230 @ bc.wakwak.com ==================================== ----- Original Message ----- From: To: "Yoshihiro ISHIKAWA" Cc: Sent: Tuesday, April 06, 2004 6:38 PM Subject: Re: [SCore-users-jp] mpich-1.2.5 is not installed > 亀山です. > > In article <04ac01c41bba$ae1d2870$6f501da0 @ airfoceone> "Yoshihiro ISHIKAWA" wrotes: > > mpichのconfigureのログは取られているのでしょうか? > > もし取られているなら,どのファイルか教えて頂きたい > > のですが・・・ > > 最初に error をチェックした mpi.build に入っています. > compile を開始する前に configure を行っています. > > from Kameyama Toyohisa > From kameyama @ pccluster.org Tue Apr 6 18:58:19 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Tue, 06 Apr 2004 18:58:19 +0900 Subject: [SCore-users-jp] mpich-1.2.5 is not installed In-Reply-To: Your message of "Tue, 06 Apr 2004 18:46:08 JST." <04b401c41bbb$fd0e1790$6f501da0@airfoceone> Message-ID: <20040406095403.A7BB312894E@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <04b401c41bbb$fd0e1790$6f501da0 @ airfoceone> "Yoshihiro ISHIKAWA" wrotes: > mpi.buildを調べてみたところ,下記のような記述がありました. > > Fortran support being turned off 一般に, このような message はその前後にその理由が書かれていることが 多いので, 前後も示してくれると助かるのですが... 今の場合は見当がつきました. /opt/score/score-src/runtime/mpi/mpich-1.2.5/src/configure の中に echo $ac_n "checking that Fortran programs can link with needed C functions""... $ac_c" 1>&1 という行の少ししたに if $FLINKER -o conftest conftest.f conftest1.o $LIBS $F77_LIBS >>config.log 2>&1 ; then という行があります. その行に if $FLINKER $FFLAGS -o conftest conftest.f conftest1.o $LIBS $F77_LIBS >>config.log 2>&1 ; then と, $FFLAGS を追加してください. from Kameyama Toyohisa From nick @ streamline-computing.com Tue Apr 6 20:02:00 2004 From: nick @ streamline-computing.com (Nick Birkett) Date: 06 Apr 2004 12:02:00 +0100 Subject: [SCore-users-jp] [SCore-users] pm error Message-ID: <1081249320.2078.273.camel@zeralda.streamline> Not quite sure what is wrong here: [root @ pleiades sbin]# ./rpminit comp04 ethernet pmEthernetOpenDevice("/var/scored/scoreboard/pleiades.0000V2004bZC", 0xbffffbf4): pmEthernetConfigure("/var/scored/scoreboard/pleiades.0000V2004bZC", 0xbffff93c): 2 It works fine over myrinetxp (Score 5.6.1). I have checked the pm_ethernet.conf file and restarted scoreboard and it looks fine. Any help appreciated. Cheers, Nick -- Dr Nick Birkett Technical Director Streamline Computing Ltd The Innovation Centre Warwick Technology Park Gallows Hill Warwick CV34 6UW Tel : +44 (0)1926 623130 Fax : +44 (0)1926 623140 Mobile : +44 (0)7890 246662 Email : nrcb @ streamline-computing.com Support : support @ streamline-computing.com Web : http://www.streamline-computing.com _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From kameyama @ pccluster.org Tue Apr 6 20:20:49 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Tue, 06 Apr 2004 20:20:49 +0900 Subject: [SCore-users-jp] Re: [SCore-users] pm error In-Reply-To: Your message of "06 Apr 2004 12:02:00 JST." <1081249320.2078.273.camel@zeralda.streamline> Message-ID: <20040406111633.A0C2212894E@neal.il.is.s.u-tokyo.ac.jp> In article <1081249320.2078.273.camel @ zeralda.streamline> Nick Birkett wrotes: > [root @ pleiades sbin]# ./rpminit comp04 ethernet > pmEthernetOpenDevice("/var/scored/scoreboard/pleiades.0000V2004bZC", > 0xbffffbf4): > pmEthernetConfigure("/var/scored/scoreboard/pleiades.0000V2004bZC", > 0xbffff93c): 2 Please check hostname in the pm_ethernet.conf file, and hostname setting on the compute host. Probabry, at least one hostname is failed on gethostbyname() on the compute host. from Kameyama Toyohisa _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From shhan @ crk.co.kr Wed Apr 7 09:58:52 2004 From: shhan @ crk.co.kr (???) Date: Wed, 7 Apr 2004 09:58:52 +0900 Subject: [SCore-users-jp] Re: [SCore-users] compile problem References: <20040323093436.8AA4812894E@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <009c01c41c3b$89983b80$e79e4b86@shhanevo> Dear Kameyama Toyohisa san, > > /opt/score/bin/mpicc -c -I../../MPP -I../../MPP/RSL -I../../pick \ > > -I../../MPP/debug -I../../MPP/RSL/RSL -DMPP1 -DIOR=2 -DIWORDSIZE=4 \ > > -DRWORDSIZE=4 -DLWORDSIZE=4 -DASSUME_HOMOGENEOUS_ENVIRONMENT=1 -DMPI \ > > -I/opt/score/mpi/mpich-1.2.5/i386-redhat7-linux2_4_gnu/include \ > > -I/opt/score/include milliclock.c > > If you use pgi compiler, you shuld use /opt/score/mpi/mpich-1.2.5/i386-redhat7-linux2_4_pgi/include header files. > (In general, you may not specify mpi header and library path.) > Yes, I use pgi compiler for fortran. I use pgf77 but I don't use pgcc but gcc, so when I use mpicc, I use score library for gnu. > > /opt/score/bin/mpif77 -o mm5.mpp ... > > > global_ops.o(.text+0x12d2): undefined reference to `__mth_i_kcmpz' > > Please check default compiler for mpicc and mpif77. > __mth_i_kcmpz is in libpgc.a on PGI library. > I want this library is linked by pgf77. > If you use realy pgi compiler, and your libpgc.a dose not __mth_i_kcmpz > symbol, you must re-compile MPI library. > (We use PGI version 3.3, If you use different version, you may be could not > use the library.) > I use PGI version 3.2 and I tried to re-compile MPI library by score-5.6.0.mpi.tar.gz in SCore CD. I use following configure for re-compile, but make was failed, as you could see the following log. I attach the configure.log file to this mail. [root @ scoreM src]# ./configure -cc=gcc -fc=pgf77 -f90=pgf90 --with-device=ch_score -prefix=/usr/local/mpich-score > configure.log /usr/src/redhat/BUILD/score-src/runtime/mpi/mpich-1.2.5/src/mpe/configure: e: command not found configure: warning: Cannot locate JAVA in known locations and $PATH ! configure: warning: Put JAVA in your path or supply it as an argument to configure configure: warning: Cannot locate JAVA in known locations and $PATH ! configure: warning: Put JAVA in your path or supply it as an argument to configure [root @ scoreM src]# make ... gcc -DHAVE_MPICHCONF_H -I/usr/src/redhat/BUILD/score-src/runtime/mpi/mpich-1.2.5/src/mpid/ch2 - I/usr/src/redhat/BUILD/score-src/runtime/mpi/mpich-1.2.5/src -I/usr/src/redhat/BUILD/score-src/r untime/mpi/mpich-1.2.5/src/include -I/usr/src/redhat/BUILD/score-src/runtime/mpi/mpich-1.2.5/src /include -I/usr/src/redhat/BUILD/score-src/runtime/mpi/mpich-1.2.5/src/mpid/ch_score -I/usr/src/ redhat/BUILD/score-src/runtime/mpi/mpich-1.2.5/src/mpid/util -I/usr/src/redhat/BUILD/score-src/r untime/mpi/mpich-1.2.5/src/mpid/util -DHAVE_GETTIMEOFDAY -DMPID_DEVICE_CODE -DMPID_SCORE_ZEROCOP Y -DMPID_PKT_MAX_DATA_SIZE=9216 -DHAVE_UNAME=1 -DHAVE_NETDB_H=1 -DHAVE_GETHOSTBYNAME=1 -DMPID_D EBUG_NONE -DMPID_STAT_NONE -c adi2recv.c In file included from /usr/src/redhat/BUILD/score-src/runtime/mpi/mpich-1.2.5/src/mpid/ch_score/ chdef.h:68, from /usr/src/redhat/BUILD/score-src/runtime/mpi/mpich-1.2.5/src/mpid/ch2/packe ts.h:375, from mpiddev.h:23, from adi2recv.c:9: /usr/src/redhat/BUILD/score-src/runtime/mpi/mpich-1.2.5/src/mpid/ch_score/chdef_rma.h:7:19: scor e.h: ?? ???? ????? ?? make[3]: *** [adi2recv.o] ?? 1 Exit status from make was 2 make[2]: *** [mpilib] ?? 1 make[1]: *** [mpi-modules] ?? 2 make: *** [mpi] ?? 2 If I don't use --with-device=ch_score or --with-device=ch_score2, re-compiling MPI library is ok, but if I use this library for compiling MM5, SCore doesn't know MM5 execution file for SCore. Regards, Seok-Hee, Han > from Kameyama Toyohisa > -------------- next part -------------- テキスト形式以外の添付ファイルを保管しました... ファイル名: configure.log 型: application/octet-stream サイズ: 24867 バイト 説明: 無し URL: From kameyama @ pccluster.org Wed Apr 7 10:55:10 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Wed, 07 Apr 2004 10:55:10 +0900 Subject: [SCore-users-jp] Re: [SCore-users] compile problem In-Reply-To: Your message of "Wed, 07 Apr 2004 09:58:52 JST." <009c01c41c3b$89983b80$e79e4b86@shhanevo> Message-ID: <20040407015053.0EF1812894E@neal.il.is.s.u-tokyo.ac.jp> In article <009c01c41c3b$89983b80$e79e4b86 @ shhanevo> "???" wrotes: > I use PGI version 3.2 and I tried to re-compile MPI library by score-5.6.0.mpi.tar.gz in SCore CD. > I use following configure for re-compile, but make was failed, as you could see > the following log. > I attach the configure.log file to this mail. > [root @ scoreM src]# ./configure -cc=gcc -fc=pgf77 -f90=pgf90 --with-device=ch_score -prefix=/usr/local/mpich-score > configure.log Please use smake % cd .. % smake % smake install or mpi_make % cd .. % smake mpi_make % ./mpi_make -compiler pgi build % ./mpi_make -compiler pgi install on the parent directory. from Kameyama Toyohisa _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From DerricRodkey372 @ girlslife.com Thu Apr 8 02:58:38 2004 From: DerricRodkey372 @ girlslife.com (Gasparo Malkin) Date: Wed, 07 Apr 2004 10:58:38 -0700 Subject: [SCore-users-jp] Re: Pastdue Account Message-ID: <200404071659.i37GxSX08713@pccluster.org> HTMLの添付ファイルを保管しました... URL: From iida @ st-systems.co.jp Thu Apr 8 02:11:11 2004 From: iida @ st-systems.co.jp (Masayasu Iida) Date: Thu, 08 Apr 2004 02:11:11 +0900 Subject: [SCore-users-jp] SCore-D PanicとBroadcom5704 NIC使用時の問題について In-Reply-To: <20040406012004.CF0E412894E@neal.il.is.s.u-tokyo.ac.jp> References: <20040406012004.CF0E412894E@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <4074362F.5080202@st-systems.co.jp> 亀山様 お世話になっております。STS飯田です。 ご連絡ありがとうございます。 BroadCom5704のrpmtestのパフォーマンスについては、 カーネルを再コンパイルすることで解決しました。 カーネルコンパイル時にオプションの関係のようですが、 時間の関係からどのオプションが関係しているのかまでは まだ特定できておりません。 また、Intereap 0も設定を行い、NPBを流してみたのですが、 SCore-D Panic: Network freezing timed outはやはり解決されません。 計算ノードの /proc/pm/ethernet/0/infoファイルを見ると PM Ethernet 0330 Version : "$Id: pm_ethernet_dev.c,v 1.3 2003/09/22 10:40:55 s-sumi Exp $" Device : eth0 Irq : 16 MTU : 1468 Bytes Maxnodes : 512 MaxContext : 16 Intreap : off Checksum : on Dev error : 12285 Header err : 0 Header cksum err: 0 Data cksum err : 0 Underrun err : 0 全ての計算ノードにおいてDev Errorが発生しているようなのですが、 これが関係しているのでしょうか。 飯田 kameyama @ pccluster.org wrote: >亀山です. > >In article <4071771B.8060104 @ st-systems.co.jp> Masayasu Iida wrotes: > > >>2. BroadCom5704での性能が出ない。 >>  rpmtestのpingpongテストの値:8 0.00309027 >>scstestのバーストテスト時も50k 100k 150kとメッセージ数が >>  上がる際、1秒以上待たされる感じで非常に遅い。 >> >> > >これをどうにかする必要がありそうですね. > > > >>42ノード(BroadCom 5704)は2.4.21カーネルのbcm5700 >>自体はロードされるのですが、eth0 Link downとなり >>通信ができないため、BroadComのサイトからダウンロードした >>Ver7.1.9またはVer7.1.22のbcm5700をコンパイルし使っています。 >> >> > >はい. >この bug は 6.2.4 で fix されたもので, SCore 5.6.1 に含まれている >5.0.5 では動かないかもしれません. > > > >>2.maxsendとbackoffの調整 >>maxsendとbackoffをそれぞれ下記のように変更して >>試しましたが、現象が発生。 >> >>maxsend backoff >>8 2400 >>16 3600 >>32 7200 >> >> > >config file のなかで > intreap 0 >を指定してみてください. > > from Kameyama Toyohisa >_______________________________________________ >SCore-users-jp mailing list >SCore-users-jp @ pccluster.org >http://www.pccluster.org/mailman/listinfo/score-users-jp > > > > -- ------------------------------------------------ 飯田 昌康 サイエンス・テクノロジー・システムズ株式会社 東日本営業部 営業技術グループ マネージャー Tel:03-5774-6833 Fax:03-5774-5180 E-mail: iida @ st-systems.co.jp Web: http://www.st-systems.co.jp 〒150-0002 東京都渋谷区渋谷1-20-1 三進ビル4F ------------------------------------------------ From yoshihiro551230 @ bc.wakwak.com Thu Apr 8 06:52:14 2004 From: yoshihiro551230 @ bc.wakwak.com (Yoshihiro ISHIKAWA) Date: Thu, 8 Apr 2004 06:52:14 +0900 Subject: [SCore-users-jp] mpich-1.2.5 is not installed References: <20040406095403.A7BB312894E@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <057201c41cea$96824020$6f501da0@airfoceone> 亀山様 岩手大学の石川です.先日はありがとうございました. さて, > その行に > if $FLINKER $FFLAGS -o conftest conftest.f conftest1.o $LIBS $F77_LIBS >>config.log 2>&1 ; then > と, $FFLAGS を追加してください. を行って,再度コンパイルをしてみたのですが,やはり mpif90:mpich-1.2.5 is not installed が出ました.念のためRedhat 8 + SCore 5.6.1という構成で試してみましたが,結果 は同様でした. また,私の手順にミスがなかったかどうかの確認のために,Redhat 8 + SCore 5.4で やってみました が,こちらはうまくいきました. 他に考えられる原因はないでしょうか? ==================================== 岩手大学大学院工学研究科機械工学専攻 航空宇宙システム部門/船崎・山田研究室 修士課程2年 石川慶拓 Yoshihiro Ishikawa mail yoshihiro551230 @ bc.wakwak.com ==================================== From kameyama @ pccluster.org Thu Apr 8 09:08:50 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Thu, 08 Apr 2004 09:08:50 +0900 Subject: [SCore-users-jp] mpich-1.2.5 is not installed In-Reply-To: Your message of "Thu, 08 Apr 2004 06:52:14 JST." <057201c41cea$96824020$6f501da0@airfoceone> Message-ID: <20040408000430.2C46D12894E@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <057201c41cea$96824020$6f501da0 @ airfoceone> "Yoshihiro ISHIKAWA" wrotes: > > > その行に > > if $FLINKER $FFLAGS -o conftest conftest.f conftest1.o $LIBS $F77_LIBS > >>config.log 2>&1 ; then > > と, $FFLAGS を追加してください. > > を行って,再度コンパイルをしてみたのですが,やはり > > mpif90:mpich-1.2.5 is not installed > > が出ました.念のためRedhat 8 + SCore 5.6.1という構成で試してみましたが,結果 > は同様でした. mopi.build で Fortran 90 は認識されていたでしょうか? 認識されていたら Fortran 90 module をコンパイルするはずなのですが, されているでしょうか? また, mpi.install で pi3f90.f90 をコンパイルして動作を確認している はずなんですが, それはうまく行っているでしょうか? 確認方法がわからなかったら, mpi.build の結果を送ってください. (mpich 1.2.5 & intel の部分だけでも構いません. 量が大きいので私個人宛てでもよいです.) from Kameyama Toyohisa From yoshihiro551230 @ bc.wakwak.com Thu Apr 8 09:32:38 2004 From: yoshihiro551230 @ bc.wakwak.com (Yoshihiro ISHIKAWA) Date: Thu, 8 Apr 2004 09:32:38 +0900 Subject: [SCore-users-jp] mpich-1.2.5 is not installed Message-ID: <05f801c41d00$fefb3ce0$6f501da0@airfoceone> 亀山様 岩手大学の石川です.返信ありがとうございます. > mopi.build で Fortran 90 は認識されていたでしょうか? されていないようです. > また, mpi.install で pi3f90.f90 をコンパイルして動作を確認している > はずなんですが, それはうまく行っているでしょうか? Fortran90が認識されていないため,Cプログラムの動作確認のみ が行われているようです. mpi.buildのintelの部分のみお送りします. 申し訳ありませんが,よろしくお願い致します. ==================================== 岩手大学大学院工学研究科機械工学専攻 航空宇宙システム部門/船崎・山田研究室 修士課程2年 石川慶拓 Yoshihiro Ishikawa mail yoshihiro551230 @ bc.wakwak.com ==================================== From kameyama @ pccluster.org Thu Apr 8 09:50:12 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Thu, 08 Apr 2004 09:50:12 +0900 Subject: [SCore-users-jp] mpich-1.2.5 is not installed In-Reply-To: Your message of "Thu, 08 Apr 2004 09:32:38 JST." <05f801c41d00$fefb3ce0$6f501da0@airfoceone> Message-ID: <20040408004551.ED8A112894E@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <05f801c41d00$fefb3ce0$6f501da0 @ airfoceone> "Yoshihiro ISHIKAWA" wrotes: > > mopi.build で Fortran 90 は認識されていたでしょうか? > > されていないようです. まだ checking that Fortran programs can link with needed C functions... no checking that C++ programs can link with needed C functions... no Warning: Fortran programs cannot be linked with the C libraries Fortran support being turned off が出ていますね... すみません, 今度は /opt/score/score-src/runtime/mpi/mpich-1.2.5/build.i386-redhat9-linux2_4_intel/config.log を送ってください. ここに link が失敗したときの様子が記録されているはずなので... from Kameyama Toyohisa From anis @ eepis-its.edu Mon Apr 12 17:25:29 2004 From: anis @ eepis-its.edu (anis) Date: Mon, 12 Apr 2004 15:25:29 +0700 Subject: [SCore-users-jp] [SCore-users] msgb error In-Reply-To: <1081249320.2078.273.camel@zeralda.streamline> References: <1081249320.2078.273.camel@zeralda.streamline> Message-ID: <20040412152529.0414b0cb.anis@eepis-its.edu> Dear List-Readers, I have an error when i execute this command : # /etc/rc.d/init.d/msgbserv restart Starting Compute Host Lock services: SCBD: Unable to get scoreboard host info Any comments on this? Thanks _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From kameyama @ pccluster.org Mon Apr 12 17:58:33 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Mon, 12 Apr 2004 17:58:33 +0900 Subject: [SCore-users-jp] Re: [SCore-users] msgb error In-Reply-To: Your message of "Mon, 12 Apr 2004 15:25:29 JST." <20040412152529.0414b0cb.anis@eepis-its.edu> Message-ID: <20040412085358.D09F4128950@neal.il.is.s.u-tokyo.ac.jp> In article <20040412152529.0414b0cb.anis @ eepis-its.edu> anis wrotes: > I have an error when i execute this command : > > # /etc/rc.d/init.d/msgbserv restart > > Starting Compute Host Lock services: SCBD: Unable to get scoreboard > host info Please check SCBDSERV environment variable is set in /etc/rc.d/init.d/msgbserv. from Kameyama Toyohisa _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From liu @ mpcnet.co.jp Mon Apr 12 18:42:13 2004 From: liu @ mpcnet.co.jp (=?UTF-8?Q?=E5=8A=89=E5=AD=A6=E6=8C=AF=28LIU_XUEZHEN=29?=) Date: Mon, 12 Apr 2004 18:42:13 +0900 Subject: [SCore-users-jp] eit-Load References: <20040412085358.D09F4128950@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <00f501c42072$6f0a8ee0$6403c9a0@IWS0098> 亀山さん eitで起動して,Loadボタンを押した時,どこのファイルをロードするのでしょうか。 教えていただけませんか。 宜しくお願い致します。 劉学振@三菱プレシジョン From kameyama @ pccluster.org Mon Apr 12 18:53:43 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Mon, 12 Apr 2004 18:53:43 +0900 Subject: [SCore-users-jp] Re: eit-Load In-Reply-To: Your message of "Mon, 12 Apr 2004 18:42:13 JST." <00f501c42072$6f0a8ee0$6403c9a0@IWS0098> Message-ID: <20040412094908.CE22A12894E@neal.il.is.s.u-tokyo.ac.jp> 亀山です. すみませんが, UTF-8 で mail するのは避けていただけないでしょうか? EIT で load ボタンをおしたときは /opt/score//etc/ndconf/Config を load します. from Kameyama Toyohisa From domon_ay_8 @ yahoo.co.jp Thu Apr 15 12:33:20 2004 From: domon_ay_8 @ yahoo.co.jp (安田   陽) Date: Thu, 15 Apr 2004 12:33:20 +0900 (JST) Subject: [SCore-users-jp] EIT による計算ホストのインストール Message-ID: <20040415033320.67899.qmail@web2304.mail.yahoo.co.jp> 岐阜大学 安田です。 現在,P4 2.8GHzのPC 2台 RedHat9およびScore5.6.1を用いて PCクラスタを構築中です。 なおScore5.6.1はコンソーシアムHPから isoファイルをダウンロードして ブートCD-ROMを作成しました。 サーバーホスト(兼 計算ホスト)にRedHat9をフルインストール し SCore5.6.1をインストールしました。 その後インストールマニュアルに沿って進めて参りましたが, EITによる計算ホストインストール時(1台目)に 以下のようなエラーメッセージが出て, インストールがストップしてしまいます. (略) No dhcp_server specified. Used Broadcast SIOCSIFADDR: No such device Try it again SIOCSIFADDR: No such device Try it again SIOCSIFADDR: No such device Try it again Configure Network fails done NFS mount : /mnt/runtime Cannot mount exiting See the documentation for this trouble ALT-CNTL-F3の結果を以下に示します. * probing buses * finished bus probing * found suggestion of usb-uchi * found suggestion of usb-uchi * found suggestion of usb-uchi * found suggestion of usb-uchi * found nothing * writing /tmp/modules.conf * going to insmod sunrpc.o ( path is NULL ) * going to insmod locked.o ( path is NULL ) * going to insmod nfs.o ( path is NULL ) Boot floppy にNICのデバイスドライバがないようなので、「Making EIT boot floppy for drivers un-supported by EIT」を参考にinitrd.imgを組 み込み直そうと思いました。 しかしどうにもうまくいかないのでメールをさせていただきま した。Linux,Scoreともまだ始めたばかりで 知識があまりないので、とにかく自分が行なった手順を以下に 示します。 1.Create boot floppy by EIT. 2.mount this floppy. # mount /dev/fd0 /mnt/floppy 3.extract initrd image and mount it. # gunzip < initrd.img > /tmp/initrd # mkdir /mnt/tmp # mount -o loop /tmp/initrd /mnt/tmp 4.extract modules cpio file # cd /tmp # mkdir work # cd work # zcat /mnt/tmp/modules/modules.cgz | cpio --extract –d 5.NICにはプラネックスのGN-1200TC(Gigabit eth)を用いてお り /opt/score/setup/RedHat/instimage/usr/share/hwdata/pcitable より NIC の PCI の 以下のvendor ID および product IDの情報を 得ました。 0x10ec 0x8169 “r8169” “Realtek | RTL-8169” またGN-1200TCのドライバは製品に付属のCD-ROMより、makefile のカーネル部分の記述をインストールしたVer.2.4.20-8に変更 して実行し、作成されたGN1200.oを /tmp/work/2.4.21-1SCOREBOOTの中に追加コピーしました # cd /tmp/work # find * -type f | cpio --quiet -H crc -o | gzip -9   /mnt//tmp/modules/modules.cgz 6. /mnt/tmp/modulesのmodule-infoに以下を追加記述  r8169 eth “Realtek | RTL-8169”  またpcitableに以下を追加記述 0x10ec 0x8169 “r8169” “Realtek | RTL-8169” 7. # gzip -9 /tmp/initrd # cp /tmp/initrd.gz /mnt/floppy/initrd.img   以上のようにして組込みを行ないましたが、自信がなく問 題があるのではないかと思います。お気づきの点がありました ら教えていただけないでしょうか。またBoot floppyの組換え 方がよく理解できていませんので、詳しく教えていただけたら 幸いです。 ------------------------- 岐阜大学大学院 工学研究科 安田 陽 ------------------------- __________________________________________________ Do You Yahoo!? http://bb.yahoo.co.jp/ From kameyama @ pccluster.org Thu Apr 15 13:35:07 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Thu, 15 Apr 2004 13:35:07 +0900 Subject: [SCore-users-jp] EIT による計算ホストのインストール In-Reply-To: Your message of "Thu, 15 Apr 2004 12:33:20 JST." <20040415033320.67899.qmail@web2304.mail.yahoo.co.jp> Message-ID: <20040415043023.8158D12894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <20040415033320.67899.qmail @ web2304.mail.yahoo.co.jp> 安田 陽 wrotes: > サーバーホスト(兼 計算ホスト)にRedHat9をフルインストール > し > SCore5.6.1をインストールしました。 CD-ROM の中の binary は redhat 7.3 用なので, redhat 9 で動かない 可能性が高いです. > > その後インストールマニュアルに沿って進めて参りましたが, > EITによる計算ホストインストール時(1台目)に > 以下のようなエラーメッセージが出て, > インストールがストップしてしまいます. > (略) > No dhcp_server specified. Used Broadcast > SIOCSIFADDR: No such device Ethernet が認識されていないようです. > ALT-CNTL-F3の結果を以下に示します. > > * probing buses > * finished bus probing > * found suggestion of usb-uchi > * found suggestion of usb-uchi > * found suggestion of usb-uchi > * found suggestion of usb-uchi > * found nothing > * writing /tmp/modules.conf > * going to insmod sunrpc.o ( path is NULL ) > * going to insmod locked.o ( path is NULL ) > * going to insmod nfs.o ( path is NULL ) ここでも同様ですね. ここで認識されていないということは pcitable と modules-info に問題があります. ここで * found suggestion of r8169 * found r8169 device とかいうメッセージが出れば, ここは問題なくて, kernel message をチェックすることになると思います. > 5.NICにはプラネックスのGN-1200TC(Gigabit eth)を用いてお > り > /opt/score/setup/RedHat/instimage/usr/share/hwdata/pcitable > > より > NIC の PCI の 以下のvendor ID および product IDの情報を > 得ました。 > 0x10ec 0x8169 “r8169” “Realtek | RTL-8169” > またGN-1200TCのドライバは製品に付属のCD-ROMより、makefile > のカーネル部分の記述をインストールしたVer.2.4.20-8に変更 > して実行し、作成されたGN1200.oを > /tmp/work/2.4.21-1SCOREBOOTの中に追加コピーしました device driver は同じ kernel の version で作成する必要があります. EIT の floppy に入っているのは 2.4.21-1SCOREBOOT という version ですので, この version である必要があります. SCore CD-ROM の RedHat/RPMS/kernel-BOOT-2.4.21-1SCORE.i386.rpm に, EIT で使用している kernel の image があります. その中に r8169 の driver がありますので, それを使用してください. # rpm -Uvh /mnt/cdrom/RedHat/RPMS/kernel-BOOT-2.4.21-1SCORE.i386.rpm で展開しますと, /lib/modules/2.4.21-1SCOREBOOT/kernel/drivers/net/r8169.o にその driver が install されます. > # cd /tmp/work > # find * -type f | cpio --quiet -H crc -o | gzip -9   > /mnt//tmp/modules/modules.cgz > 6. > /mnt/tmp/modulesのmodule-infoに以下を追加記述 >  r8169 > eth > “Realtek | RTL-8169”  > またpcitableに以下を追加記述 > 0x10ec 0x8169 “r8169” “Realtek | RTL-8169” ちなみに, この r8169 というのは deiver の名前で. pcitable で該当する PCI ID のものがきたら r8169 を使用しろということを 指示していて, modules-info で r8169 が ethernet driver であることを 示しています. ここで, /mnt/tmp を umount してください. # umount /mnt/tmp こうしないと, 変更した結果が initrd に反映されない可能性があります. > 7. > # gzip -9 /tmp/initrd > # cp /tmp/initrd.gz /mnt/floppy/initrd.img この cp で /tmp/initrd.gz が更新されます. # umount /mnt/floppy 同様に, umount してから floppy をとりだしてその floppy で boot します. from Kameyama Toyohisa From kameyama @ pccluster.org Thu Apr 15 16:18:51 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Thu, 15 Apr 2004 16:18:51 +0900 Subject: [SCore-users-jp] Re: [SCore-users] Intel 8 In-Reply-To: Your message of "Sat, 28 Feb 2004 11:51:15 JST." <200402281151.15615.nick@streamline-computing.com> Message-ID: <20040415071407.5C88C12894C@neal.il.is.s.u-tokyo.ac.jp> In article <200402281151.15615.nick @ streamline-computing.com> Nick Birkett wrotes: > Is it possible to use the Intel V8 compilers with Score 5.6.1 ? We create patch and add this probrem in FAQ. For more datail, please read following URL: http://www.pccluster.org/faq/en/faq-tips/faq.html#Compiling from Kameyama Toyohisa _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From hqzhou @ nju.edu.cn Fri Apr 16 11:10:39 2004 From: hqzhou @ nju.edu.cn (Huiqun Zhou) Date: Fri, 16 Apr 2004 10:10:39 +0800 Subject: [SCore-users-jp] [SCore-users] How to remove a node from a cluster? Message-ID: <001301c42358$037044c0$1a00a8c0@geohpclab.nju.edu.cn> Hi, Just a quick question. How can I remove a node which does not respond from a cluster? Huiqun Zhou _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From kameyama @ pccluster.org Fri Apr 16 15:34:29 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Fri, 16 Apr 2004 15:34:29 +0900 Subject: [SCore-users-jp] Re: [SCore-users] How to remove a node from a cluster? In-Reply-To: Your message of "Fri, 16 Apr 2004 10:10:39 JST." <001301c42358$037044c0$1a00a8c0@geohpclab.nju.edu.cn> Message-ID: <20040416062941.E077612894D@neal.il.is.s.u-tokyo.ac.jp> In article <001301c42358$037044c0$1a00a8c0 @ geohpclab.nju.edu.cn> "Huiqun Zhou" wrotes: > Just a quick question. How can I remove a node which does not respond from a > cluster? Please remove this hosts entry in scorehosts.db. Or if this hosts remove temporary, please add the hostname in defects list for scoreboard. And the both case, please restart scoreboard. Please see also "Automatic Operation and High Availability of SCore-D": http://www.pccluster.org/score/dist/score/html/en/reference/scored/auto.html from Kameyama Toyohisa _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From siptiger-bounces @ vovida.org Sat Apr 17 00:48:18 2004 From: siptiger-bounces @ vovida.org (=?iso-2022-jp?b?c2lwdGlnZXItYm91bmNlcyAbJEIhdxsoQiB2b3ZpZGEub3Jn?=) Date: Fri, 16 Apr 2004 08:48:18 -0700 Subject: [SCore-users-jp] [SCore-users] Your message to siptiger awaits moderator approval Message-ID: Your mail to 'siptiger' with the subject Re: Encrypted Mail Is being held until the list moderator can review it for approval. The reason it is being held: Post by non-member to a members-only list Either the message will get posted to the list, or you will receive notification of the moderator's decision. If you would like to cancel this posting, please visit the following URL: http://www.vovida.org/mailman/confirm/siptiger/0e233fee8aa6914d8302d513b8d5833721ed4021 _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From viruscop @ igatecorp.com Fri Apr 16 22:34:14 2004 From: viruscop @ igatecorp.com (=?iso-2022-jp?b?dmlydXNjb3AgGyRCIXcbKEIgaWdhdGVjb3JwLmNvbQ==?=) Date: Fri Apr 16 22:34:14 2004 Subject: [SCore-users-jp] [SCore-users] Virus Detected by Network Associates, Inc. Webshield SMTP V4.5 Message-ID: <200404170240.i3H2dta74607@mx1.igatecorp.com> Network Associates WebShield SMTP V4.5 on viruscop2 detected virus W32/Netsky.p @ MM!zip in attachment bill.zip from and it was Cleaned and Quarantined. _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From diver_oct1981 @ yahoo.co.jp Mon Apr 19 18:19:16 2004 From: diver_oct1981 @ yahoo.co.jp (P.D) Date: Mon, 19 Apr 2004 18:19:16 +0900 (JST) Subject: [SCore-users-jp] mpif90 について Message-ID: <20040419091916.48744.qmail@web702.mail.yahoo.co.jp> いつもお世話になります。 駒澤です。 今回はintelのfortran90 のコンパイラーを用いて 分散処理に挑戦しているのですが、 コンパイルをしていざプログラムを以下の様に走らせると エラーがでてきてしまいます。 ***************************************** scrun -nodes=2 ./test.out と行うと、 Insufficent memory to allocate Fortran RTL message buffer, message #174 = hex 000000ae. Insufficent memory to allocate Fortran RTL message buffer, message #174 = hex 000000ae. が永遠にでてきます。 ***************************************** プログラムは以下のようなプログラムです program main include'mpif.h' call mpi_init(ierr) call mpi_comm_rank(mpi_comm_world,myrank,ierr) call mpi_comm_size(mpi_comm_world,nprocs,ierr) print *, "myrank=",myrank print *, "nprocs=",nprocs call mpi_finalize(ierr) end programprogram ***************************************** 何が原因かわかりません。Cで同じプログラムの 場合は何もでてこず出力してくれます。 なにかありましたらアドバイスよろしくねがいいたします。 ******************************* 駒澤 孝美 diver_oct1981 @ yahoo.co.jp ******************************* From kameyama @ pccluster.org Mon Apr 19 18:33:24 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Mon, 19 Apr 2004 18:33:24 +0900 Subject: [SCore-users-jp] mpif90 について In-Reply-To: Your message of "Mon, 19 Apr 2004 18:19:16 JST." <20040419091916.48744.qmail@web702.mail.yahoo.co.jp> Message-ID: <20040419092826.E4EAE12894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <20040419091916.48744.qmail @ web702.mail.yahoo.co.jp> "P.D" wrotes: > コンパイルをしていざプログラムを以下の様に走らせると > エラーがでてきてしまいます。 > ***************************************** > scrun -nodes=2 ./test.out > と行うと、 > Insufficent memory to allocate Fortran RTL message buffer, > message #174 = hex 000000ae. > Insufficent memory to allocate Fortran RTL message buffer, > message #174 = hex 000000ae. > > が永遠にでてきます。 memory が足りないと言っているようですが, compute host の memory ulimit (csh の場合は limit) の設定 はどうなっているでしょうか? \ こちらでは Intel compiler 8 で動きました. memory は 10 MB 近く使っているようです. from Kameyama Toyohisa From diver_oct1981 @ yahoo.co.jp Tue Apr 20 10:51:35 2004 From: diver_oct1981 @ yahoo.co.jp (P.D) Date: Tue, 20 Apr 2004 10:51:35 +0900 (JST) Subject: [SCore-users-jp] mpif90 について In-Reply-To: <20040419092826.E4EAE12894C@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <20040420015135.24250.qmail@web706.mail.yahoo.co.jp> 亀山様 いつもお世話になります。コマザワです > memory が足りないと言っているようですが, > compute host の memory > ulimit (csh の場合は limit) の設定 > はどうなっているでしょうか? といいますのは、fortran90(intel compiler8)でのメモリの確 保が出来ていないというのでしょうか? 設定は具体的にはfortan90の中で行うのでしょうか? それともMPIの中の設定を変えるのでしょうか? ホスト自体の/etcの中などに設定を変えるものが あるのでしょうか? この設定を行うことでfortranだけでなく 例えばC言語などのメモリの設定を変えられる ということでしょうか? 以前このようなことを調べた時には余り十分な結果が 得られなかったため、大変興味があります。 基本的な質問で申し訳ありませんが宜しくお願いいたします。 ******************************* 駒澤 孝美 diver_oct1981 @ yahoo.co.jp ******************************* From kameyama @ pccluster.org Tue Apr 20 11:15:52 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Tue, 20 Apr 2004 11:15:52 +0900 Subject: [SCore-users-jp] mpif90 について In-Reply-To: Your message of "Tue, 20 Apr 2004 10:51:35 JST." <20040420015135.24250.qmail@web706.mail.yahoo.co.jp> Message-ID: <20040420021052.CD3C112894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <20040420015135.24250.qmail @ web706.mail.yahoo.co.jp> "P.D" wrotes: > > > memory が足りないと言っているようですが, > > compute host の memory > > ulimit (csh の場合は limit) の設定 > > はどうなっているでしょうか? > > といいますのは、fortran90(intel compiler8)でのメモリの確 > 保が出来ていないというのでしょうか? 少なくても, メッセージの内容はそのようです. > 設定は具体的にはfortan90の中で行うのでしょうか? > それともMPIの中の設定を変えるのでしょうか? > ホスト自体の/etcの中などに設定を変えるものが > あるのでしょうか? まず, 個人環境をチェックしてください. bash でしたら $ ulimit -a csh でしたら % limit というコマンドで現在の設定値がでてきます. たとえば bash の場合, 以下のような出力になります. core file size (blocks, -c) unlimited data seg size (kbytes, -d) unlimited file size (blocks, -f) unlimited max locked memory (kbytes, -l) unlimited max memory size (kbytes, -m) unlimited open files (-n) 1024 pipe size (512 bytes, -p) 8 stack size (kbytes, -s) 8192 cpu time (seconds, -t) unlimited max user processes (-u) 28667 virtual memory (kbytes, -v) unlimited ここで, data seg size とか max memory size とかが少ないと memory が足りないと言われます. 注意すべきことは, SCore は compute host で実行されるため, compute host での値を調べる必要があることです. 多分, scout 上で $ scout ulimit -a などを実行してみればわかると思います. あと, 実際に compute host 全体に memory がないか, ほかのプロセスに 使用されている場合が考えられます. これは free コマンドで確認できると思います. たとえば, 以下のよううになります. $ free total used free shared buffers cached Mem: 2068372 1857404 210968 0 559328 1020408 -/+ buffers/cache: 277668 1790704 Swap: 2096440 7176 2089264 ここで実際に memory がどれくらいあいているかは, -/+ buffers/cache: の行をみます. (この場合だと 1790704 KB あいていることを示しています.) これも compute host を確認する必要があります. 両方とも問題がない可能性はかなり高いとは思いますが... from Kameyama Toyohisa From diver_oct1981 @ yahoo.co.jp Tue Apr 20 11:58:02 2004 From: diver_oct1981 @ yahoo.co.jp (P.D) Date: Tue, 20 Apr 2004 11:58:02 +0900 (JST) Subject: [SCore-users-jp] mpif90 について In-Reply-To: <20040420021052.CD3C112894C@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <20040420025802.59943.qmail@web706.mail.yahoo.co.jp> 亀山様 いつもお世話になります駒澤です。 > bash でしたら > $ ulimit -a > csh でしたら についてですが、 [score @ scic100 score]$ scout ulimit -a [scic101-4]: core file size (blocks, -c) 0 data seg size (kbytes, -d) unlimited file size (blocks, -f) unlimited max locked memory (kbytes, -l) unlimited max memory size (kbytes, -m) unlimited open files (-n) 1024 pipe size (512 bytes, -p) 8 stack size (kbytes, -s) unlimited cpu time (seconds, -t) unlimited max user processes (-u) 4095 virtual memory (kbytes, -v) unlimited という結果になっています。 > $ free では、全てのホストで total used free shared Mem: 515592 130352 385240 0 -/+ buffers/cache: 95576 420016 Swap: 265032 0 265032 とでてますので問題はないように感じられるのですが どうぞ宜しくお願いいたします。 From kameyama @ pccluster.org Tue Apr 20 12:09:15 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Tue, 20 Apr 2004 12:09:15 +0900 Subject: [SCore-users-jp] mpif90 について In-Reply-To: Your message of "Tue, 20 Apr 2004 11:58:02 JST." <20040420025802.59943.qmail@web706.mail.yahoo.co.jp> Message-ID: <20040420030415.9B45B12894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <20040420025802.59943.qmail @ web706.mail.yahoo.co.jp> "P.D" wrotes: > [score @ scic100 score]$ scout ulimit -a > [scic101-4]: > core file size (blocks, -c) 0 > data seg size (kbytes, -d) unlimited > file size (blocks, -f) unlimited > max locked memory (kbytes, -l) unlimited > max memory size (kbytes, -m) unlimited > open files (-n) 1024 > pipe size (512 bytes, -p) 8 > stack size (kbytes, -s) unlimited > cpu time (seconds, -t) unlimited > max user processes (-u) 4095 > virtual memory (kbytes, -v) unlimited ということは, memory は足りているはずですね. では, 1. まず, この program を scrun を使用せずに server% ./test.out と動かすと動きますか? 2. 同様に compute host で scrun を使わずに comp1% ./test.out で動きますか? 動かなかったら, % strace ./test.out と, strace をつけて動かしてみてください. これでその program がどのような system call を使用しているか, それが成功しているかがわかります. 動いたら, scrun で動かしておいて. compute host で $ ps axwww | grep test.out と test.out の process を調べて % strace -p xxx とそのプロセスを指定して strace してみてください. これでなんらかの sysrem call に失敗していれば原因がわかると思います. from Kameyama Toyohisa From diver_oct1981 @ yahoo.co.jp Tue Apr 20 12:48:33 2004 From: diver_oct1981 @ yahoo.co.jp (P.D) Date: Tue, 20 Apr 2004 12:48:33 +0900 (JST) Subject: [SCore-users-jp] mpif90 について In-Reply-To: <20040420030415.9B45B12894C@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <20040420034833.60444.qmail@web703.mail.yahoo.co.jp> 亀山樣 > 2. 同様に compute host で scrun を使わずに > comp1% ./test.out > で動きますか? でうごきました。また今回のクラスタ環境はEIT を使っているのですがそのままcomp1にtest.outを コピーして実行させたのですがいいのでしょうか? > 動かなかったら, > % strace ./test.out > と, strace をつけて動かしてみてください. > これでその program がどのような system call > を使用しているか, > それが成功しているかがわかります. 一応straceを行ってみたところ 以下のようになりました。 ******************************************** [root @ scic101 root]# strace ./test.out execve("./test.out", ["./test.out"], [/* 21 vars */]) = 0 fcntl64(0, F_GETFD) = 0 fcntl64(1, F_GETFD) = 0 fcntl64(2, F_GETFD) = 0 uname({sys="Linux", node="scic101.sci.u-ryukyu.ac.jp", ...}) = 0 geteuid32() = 0 getuid32() = 0 getegid32() = 0 getgid32() = 0 getpid() = 3351 uname({sys="Linux", node="scic101.sci.u-ryukyu.ac.jp", ...}) = 0 rt_sigaction(SIGRTMIN, {0x80ee774, [], 0x4000000}, NULL, 8) = 0 rt_sigaction(SIGRT_1, {0x80ee7e0, [], 0x4000000}, NULL, 8) = 0 rt_sigaction(SIGRT_2, {0x80ee8c0, [], 0x4000000}, NULL, 8) = 0 rt_sigprocmask(SIG_BLOCK, [RTMIN], NULL, 8) = 0 _sysctl({{CTL_KERN, KERN_VERSION}, 2, 0xbffff490, 31, (nil), 0}) = 0 brk(0) = 0x85e0d68 brk(0x85e0d98) = 0x85e0d98 brk(0x85e1000) = 0x85e1000 brk(0x85e2000) = 0x85e2000 rt_sigaction(SIGFPE, {0x80ef040, [], SA_RESTART|SA_NOMASK|SA_SIGINFO|0x4000000}, NULL, 8) = 0 rt_sigaction(SIGILL, {0x80ef040, [], SA_RESTART|SA_NOMASK|SA_SIGINFO|0x4000000}, NULL, 8) = 0 rt_sigaction(SIGSEGV, {0x80ef040, [], SA_RESTART|SA_NOMASK|SA_SIGINFO|0x4000000}, NULL, 8) = 0 rt_sigaction(SIGABRT, {0x80eef58, [], SA_RESTART|SA_NOMASK|0x4000000}, NULL, 8) = 0 rt_sigaction(SIGTERM, {0x80eef58, [], SA_RESTART|SA_NOMASK|0x4000000}, NULL, 8) = 0 rt_sigaction(SIGQUIT, {0x80eef58, [], SA_RESTART|SA_NOMASK|0x4000000}, {SIG_DFL}, 8) = 0 rt_sigaction(SIGINT, {0x80eef58, [], SA_RESTART|SA_NOMASK|0x4000000}, {SIG_DFL}, 8) = 0 rt_sigaction(SIGILL, {0x80eef58, ~[], 0x4000000}, {0x80ef040, [], SA_RESTART|SA_NOMASK|SA_SIGINFO|0x4000000}, 8) = 0 rt_sigprocmask(SIG_BLOCK, NULL, [RTMIN], 8) = 0 rt_sigaction(SIGILL, {0x80ef040, [], SA_RESTART|SA_NOMASK|SA_SIGINFO|0x4000000}, NULL, 8) = 0 brk(0x85e4000) = 0x85e4000 getpid() = 3351 readlink("/proc/3351/exe", "/root/test.out", 4096) = 14 write(2, "<0:0> SCORE: ", 13<0:0> SCORE: ) = 13 write(2, "One local node ready.", 21One local node ready.) = 21 write(2, "\n", 1 ) = 1 rt_sigaction(SIGHUP, {0x80eef58, [HUP], SA_RESTART|0x4000000}, {SIG_DFL}, 8) = 0rt_sigaction(SIGILL, {0x80eef58, [ILL], SA_RESTART|0x4000000}, {0x80ef040, [], SA_RESTART|SA_NOMASK|SA_SIGINFO|0x4000000}, 8) = 0 rt_sigaction(SIGFPE, {0x80eef58, [FPE], SA_RESTART|0x4000000}, {0x80ef040, [], SA_RESTART|SA_NOMASK|SA_SIGINFO|0x4000000}, 8) = 0 rt_sigaction(SIGBUS, {0x80eef58, [BUS], SA_RESTART|0x4000000}, {SIG_DFL}, 8) = 0rt_sigaction(SIGSEGV, {0x80eef58, [SEGV], SA_RESTART|0x4000000}, {0x80ef040, [], SA_RESTART|SA_NOMASK|SA_SIGINFO|0x4000000}, 8) = 0 brk(0x85e8000) = 0x85e8000 brk(0x85ec000) = 0x85ec000 brk(0x85ef000) = 0x85ef000 ioctl(1, SNDCTL_TMR_TIMEBASE, {B38400 opost isig icanon echo ...}) = 0 readlink("/proc/self/fd/1", "/dev/pts/1", 4095) = 10 ioctl(1, SNDCTL_TMR_TIMEBASE, {B38400 opost isig icanon echo ...}) = 0 fstat64(1, {st_mode=S_IFCHR|0620, st_rdev=makedev(136, 1), ...}) = 0 ioctl(1, SNDCTL_TMR_TIMEBASE, {B38400 opost isig icanon echo ...}) = 0 write(1, " myrank= 0\n", 21 myrank= 0 ) = 21 write(1, " nprocs= 1\n", 21 nprocs= 1 ) = 21 _exit(0) = ? ******************************************** > 動いたら, scrun で動かしておいて. compute host で > $ ps axwww | grep test.out > と test.out の process を調べて > % strace -p xxx > とそのプロセスを指定して strace してみてください. これはscoutでなくscrunを動かすのですか? 一応、scoutを動かして、 $ ps axwww | grep test.out を行うと3164という番号がでてきたので [root @ scic101 root]# strace -p 3164 attach: ptrace(PTRACE_ATTACH, ...): No such process をおこないました。 attach: ptrace(PTRACE_ATTACH, ...): No such process を何とかすればいいということですか? この値を変更したりするのでしょうか? どうぞ宜しくお願いいたします。 駒澤 From kameyama @ pccluster.org Tue Apr 20 12:57:33 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Tue, 20 Apr 2004 12:57:33 +0900 Subject: [SCore-users-jp] mpif90 について In-Reply-To: Your message of "Tue, 20 Apr 2004 12:48:33 JST." <20040420034833.60444.qmail@web703.mail.yahoo.co.jp> Message-ID: <20040420035233.8906312894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <20040420034833.60444.qmail @ web703.mail.yahoo.co.jp> "P.D" wrotes: > > 動いたら, scrun で動かしておいて. compute host で > > $ ps axwww | grep test.out > > と test.out の process を調べて > > % strace -p xxx > > とそのプロセスを指定して strace してみてください. > これはscoutでなくscrunを動かすのですか? はい. まず, server で % scrun -nodes=2 ./test.out を実行します. ここで, 問題になっているエラーが再現しているわけですよね? それから, (もしくはほかの window で事前に) compute host に login して > $ ps axwww | grep test.out を行います. このとき, grep も出力に含まれますが, そうではない process にたいして strace を行います. from Kameyama Toyohisa From diver_oct1981 @ yahoo.co.jp Tue Apr 20 13:51:18 2004 From: diver_oct1981 @ yahoo.co.jp (P.D) Date: Tue, 20 Apr 2004 13:51:18 +0900 (JST) Subject: [SCore-users-jp] mpif90 について In-Reply-To: <20040420035233.8906312894C@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <20040420045118.65171.qmail@web703.mail.yahoo.co.jp> 亀山様 何度もすみません。 宜しくお願いいたします。 > まず, server で > % scrun -nodes=2 ./test.out > を実行します. > ここで, > 問題になっているエラーが再現しているわけですよね? > それから, (もしくはほかの window で事前に) compute > host > に login して > > > $ ps axwww | grep test.out > > を行います. > このとき, grep も出力に含まれますが, そうではない > process > にたいして strace を行います. ということですので > > $ ps axwww | grep test.out を行いました。 すると以下の結果が ************************************************** [root @ scic101 root]# ps axwww | grep test.out 3487 ? S 0:00 ./test.out 3488 ? Z 0:00 [test.out.1 ] 3490 pts/1 R 0:00 grep test.out ************************************************** とでてきましたので ************************************************** [root @ scic101 root]# strace -p 3490 attach: ptrace(PTRACE_ATTACH, ...): No such process [root @ scic101 root]# strace -p 3488 attach: ptrace(PTRACE_ATTACH, ...): No such process [root @ scic101 root]# strace -p 3487 attach: ptrace(PTRACE_ATTACH, ...): No such process [root @ scic101 root]# ps axwww | grep test.out 3545 ? S 0:00 ./test.out 3546 ? Z 0:00 [test.out.1 ] [root @ scic101 root]# ps axwww | grep test.out 3572 ? S 0:00 ./test.out 3573 ? Z 0:00 [test.out.1 ] [root @ scic101 root]# ps axwww | grep test.out 3599 ? S 0:00 ./test.out 3600 ? Z 0:00 [test.out.1 ] [root @ scic101 root]# strace -p 3600 attach: ptrace(PTRACE_ATTACH, ...): No such process [root @ scic101 root]# strace -p 3599 ***************************************************** と色々と行ってみたのですが行う度に番号が変わり 行っても上記のようにそんなプロセスは無いと 言われてしまいます。方法が間違っているのでしょうか。 本当にご迷惑をおかけ致します。 宜しくおねがい致します。 ******************************* 駒澤 孝美 diver_oct1981 @ yahoo.co.jp ******************************* From kameyama @ pccluster.org Tue Apr 20 14:28:09 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Tue, 20 Apr 2004 14:28:09 +0900 Subject: [SCore-users-jp] mpif90 について In-Reply-To: Your message of "Tue, 20 Apr 2004 13:51:18 JST." <20040420045118.65171.qmail@web703.mail.yahoo.co.jp> Message-ID: <20040420052308.D12DF12894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <20040420045118.65171.qmail @ web703.mail.yahoo.co.jp> "P.D" wrotes: > と色々と行ってみたのですが行う度に番号が変わり > 行っても上記のようにそんなプロセスは無いと > 言われてしまいます。方法が間違っているのでしょうか。 すみません. もうひとつ直さないといけないところがありました. score-src/SCore/scoredlib/usr/shadow.c の #define SCORE_SHADOW_PROC を削除してコンパイルし直してください. from Kameyama Toyohisa From diver_oct1981 @ yahoo.co.jp Tue Apr 20 14:39:41 2004 From: diver_oct1981 @ yahoo.co.jp (P.D) Date: Tue, 20 Apr 2004 14:39:41 +0900 (JST) Subject: [SCore-users-jp] mpif90 について In-Reply-To: <20040420052308.D12DF12894C@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <20040420053941.26993.qmail@web704.mail.yahoo.co.jp> 亀山様 駒澤です。 すみません。SCoreはCDからインストールを行い、 EITを用いているのでscore_srcは存在しない気が… ソースの場合は存在していたような 宜しくお願いいたします。 ******************************* 駒澤 孝美 diver_oct1981 @ yahoo.co.jp ******************************* From kameyama @ pccluster.org Tue Apr 20 14:44:15 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Tue, 20 Apr 2004 14:44:15 +0900 Subject: [SCore-users-jp] mpif90 について In-Reply-To: Your message of "Tue, 20 Apr 2004 14:39:41 JST." <20040420053941.26993.qmail@web704.mail.yahoo.co.jp> Message-ID: <20040420053914.D541212894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <20040420053941.26993.qmail @ web704.mail.yahoo.co.jp> "P.D" wrotes: > すみません。SCoreはCDからインストールを行い、 > EITを用いているのでscore_srcは存在しない気が… > ソースの場合は存在していたような 残念ながらソースから作り直す必要があります. ソースを展開して作り直してください. 多分, compute host の内容は変更しなくてよいと思います. from Kameyama Toyohisa From diver_oct1981 @ yahoo.co.jp Tue Apr 20 15:16:19 2004 From: diver_oct1981 @ yahoo.co.jp (P.D) Date: Tue, 20 Apr 2004 15:16:19 +0900 (JST) Subject: [SCore-users-jp] ソースからのインストールについて In-Reply-To: <20040420053914.D541212894C@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <20040420061619.29851.qmail@web701.mail.yahoo.co.jp> 亀山様 駒澤です。 ソースから展開した場合での構築について2,3点質問をさせて ください。環境をしまして2台で構築を試みました。 RedHat7.3(2.4.18)フルインストールしました。 NISにはFA310TX REV-D2(NETGEAR)を用いています。 マニュアルどおりにインストールもできました。 テストを行った結果として、 $ sceptic -v -g pcc comp0.pccluster.org: scping failed comp0.pccluster.org: OK comp1.pccluster.org: scping failed comp1.pccluster.org: OK All host responding となります。これはOKでしょうか。 $ cd /opt/score/sbin $ ./rpmtest comp1 ethernet -reply を行った場合に /opt/score5.6.0/deploy/scbpmexec がないと言われてしまいます。 また、ネットワーク通信が出来ておらず原因を見た結果pm_ethernet が動いていません。 エラーメッセージとしてetherpmtclが無いといわれてしましま す。これがないのが原因でネットワーク通信のテストでエラー が出てしまいます。 このような原因としまして、ソースからのインストールの場合 は カーネルの再構築がひつようなのでしょうか。 どうぞ宜しくお願いいたします。 ******************************* 駒澤 孝美 diver_oct1981 @ yahoo.co.jp ******************************* From kameyama @ pccluster.org Tue Apr 20 15:31:56 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Tue, 20 Apr 2004 15:31:56 +0900 Subject: [SCore-users-jp] ソースからのインストールについて In-Reply-To: Your message of "Tue, 20 Apr 2004 15:16:19 JST." <20040420061619.29851.qmail@web701.mail.yahoo.co.jp> Message-ID: <20040420062656.9331212894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. 全部はじめから行ったのですね? (EIT で設定した host で server だけ compile し直せばよいかと思ったのですが...) この場合は compute host の設定も必要になります. kernel の変更 http://www.pccluster.org/score/dist/score/html/ja/installation/kernel-standard.html および SCore の install http://www.pccluster.org/score/dist/score/html/ja/installation/sys-compute-fromsrc.html を行ってください. なお, redhat 7.3 の場合, kernel の変更は rpm http://www.pccluster.org/score/dist/score/html/ja/installation/kernel-binary.html で行っても大丈夫だと思います. from Kameyama Toyohisa From diver_oct1981 @ yahoo.co.jp Tue Apr 20 18:38:54 2004 From: diver_oct1981 @ yahoo.co.jp (P.D) Date: Tue, 20 Apr 2004 18:38:54 +0900 (JST) Subject: [SCore-users-jp] mpif90 について In-Reply-To: <20040420053914.D541212894C@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <20040420093854.43892.qmail@web704.mail.yahoo.co.jp> 亀山樣. とりあえず、 #define SCORE_SHADOW_PROC を削除してコンパイルを行ないました。 その後、やはり今までと同じエラーがでてきますので 今までと同じように scrun -nodes=2 test.out を行なっている最中に ps axwww | grep test.out で、でてきたプロセス数を [score @ scic101 score]$ strace -p 3780 attach: ptrace(PTRACE_ATTACH, ...): No such process とおこなうのですが以上のような結果となってしまいます。 ここで、問題が生じていた場合はどのような返答が返ってくる のですか。 よろしくお願いいたします。 どうぞ、よろしくお願い致します。 ******************************* 駒澤 孝美 diver_oct1981 @ yahoo.co.jp ******************************* From kameyama @ pccluster.org Tue Apr 20 18:43:06 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Tue, 20 Apr 2004 18:43:06 +0900 Subject: [SCore-users-jp] mpif90 について In-Reply-To: Your message of "Tue, 20 Apr 2004 18:38:54 JST." <20040420093854.43892.qmail@web704.mail.yahoo.co.jp> Message-ID: <20040420093805.ADB9F12894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <20040420093854.43892.qmail @ web704.mail.yahoo.co.jp> "P.D" wrotes: > とりあえず、 > #define SCORE_SHADOW_PROC > を削除してコンパイルを行ないました。 > その後、やはり今までと同じエラーがでてきますので test.out も recompile してほしいのですが, しましたでしょうか? from Kameyama Toyohisa From haddock @ webgroup.co.jp Wed Apr 21 11:32:45 2004 From: haddock @ webgroup.co.jp (haddock) Date: Wed, 21 Apr 2004 11:32:45 +0900 Subject: [SCore-users-jp] P4_MAX_SYSV_SHMIDS Problem Message-ID: <4085DD4D.2070203@webgroup.co.jp> みなさんこんにちは    直接scoreと関係ないが、ご存じの方に教えていただきたいと思います。  Itanium 64bit dual CPUを2台、一台に8Gb memory, linux Advanced Server 2.1で clusterを組んでいます。あるmpi programを実行しようとして以下のエラーがはかれ ました。  p1_21873: (224.081789) xx_shmalloc: returning NULL; requested 4083948 bytes p1_21873: (224.081789) p4_shmalloc returning NULL; request = 4083948 bytes You can increase the amount of memory by setting the environment variable P4_GLOBMEMSIZE (in bytes); the current size is 4194304 p1_21873: p4_error: alloc_p4_msg failed: 0 上記に対して、/etc/sysctl.confにkernel.shmmax = 8000000000を追加し、 ユーザ環境にもsetenv P4_GLOBMEMSIZE 8000000000を追加しました。 同じprogramをもう一度実行すると、  p0_23119: p4_error: exceeding max num of P4_MAX_SYSV_SHMIDS: 256 と出てしまっています。  このエラーに対していろいろ調べたが、mpichを再compileすれば直るという 記述を見つけました。しかし、訳ありでrecompileが不可能なので、別の方法 があれば教えていただきたいと思います。   ご教授を感謝いたします。                              haddoc   From diver_oct1981 @ yahoo.co.jp Wed Apr 21 11:43:24 2004 From: diver_oct1981 @ yahoo.co.jp (P.D) Date: Wed, 21 Apr 2004 11:43:24 +0900 (JST) Subject: [SCore-users-jp] msgb,scout について In-Reply-To: <20040420093805.ADB9F12894C@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <20040421024324.51331.qmail@web703.mail.yahoo.co.jp> 亀山様 再コンパイルをおこなう前にエラーがいろいろ でてきてしまったのでアドバイスをお願い致します。 まずカーネルを再構築をおこない、 その後マニュアル通りにすすめていきました。 しかし /etc/rc.d/init.d/msgbserv start と行なうのですが No hostといわれてしまします。 /opt/score/etc/scorehosts.bd の中身をこのようにしました。 *********************************************** /* * SCore 3.0 scorehosts.db * This is a sample of scorehosts.db. */ /* PM/Ethernet */ ethernet type=ethernet \ -config:file=/opt/score/etc/pm-ethernet.conf #define PCC msgbserv=(scic**.sci.*******.ac.jp.org:8764) \ cpugen=pentium-iv speed=500 smp=2 \ network=ethernet \ group=pcc scic**.************.ac.jp PCC scic**.************.ac.jp PCC ***************************************************** msgbservを読みこんでいないようなのですが どこを変更しんければならないのでしょうか。 よろしくお願いいたします。 またscoutを行なう場合も SCOUT: Failed to lock MessageBoard. と言われてしまいます。これはmsgbservが解消されると エラーがきえるのでしょうか。 ご迷惑をおかけしますがどうぞよろしくお願いいたします。 ******************************* 駒澤 孝美 diver_oct1981 @ yahoo.co.jp ******************************* From kameyama @ pccluster.org Wed Apr 21 11:57:28 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Wed, 21 Apr 2004 11:57:28 +0900 Subject: [SCore-users-jp] msgb,scout について In-Reply-To: Your message of "Wed, 21 Apr 2004 11:43:24 JST." <20040421024324.51331.qmail@web703.mail.yahoo.co.jp> Message-ID: <20040421025224.E273312894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <20040421024324.51331.qmail @ web703.mail.yahoo.co.jp> "P.D" wrotes: > #define PCC msgbserv=(scic**.sci.*******.ac.jp.org:8764) \ ここの hostname が ...ac.jp.org になっていますが, scic**.sci.*******.ac.jp の間違いではないかと思いますが, ここは合っているのでしょうか? from Kameyama Toyohisa From kameyama @ pccluster.org Wed Apr 21 12:16:03 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Wed, 21 Apr 2004 12:16:03 +0900 Subject: [SCore-users-jp] P4_MAX_SYSV_SHMIDS Problem In-Reply-To: Your message of "Wed, 21 Apr 2004 11:32:45 JST." <4085DD4D.2070203@webgroup.co.jp> Message-ID: <20040421031100.7E3B812894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <4085DD4D.2070203 @ webgroup.co.jp> haddock wrotes: > 上記に対して、/etc/sysctl.confにkernel.shmmax = 8000000000を追加し、 > ユーザ環境にもsetenv P4_GLOBMEMSIZE 8000000000を追加しました。 > > > 同じprogramをもう一度実行すると、 > >  p0_23119: p4_error: exceeding max num of P4_MAX_SYSV_SHMIDS: 256 > > と出てしまっています。 compile し直さない限り, P4_GLOBMEMSIZE の上限は, 1 MB * 256 = 256 MB のようです. これは多分, 同一 host 内の process 間での通信に使用するもののようなので, 多分, 8 GB もいらないと思います. (そんなにとられると, プログラムのデータを置く領域がなくなってしまいますし...) 256 MB 付近を指定してみてはいかがでしょうか? from Kameyama Toyohisa From haddock @ webgroup.co.jp Wed Apr 21 14:02:51 2004 From: haddock @ webgroup.co.jp (haddock) Date: Wed, 21 Apr 2004 14:02:51 +0900 Subject: [SCore-users-jp] P4_MAX_SYSV_SHMIDS Problem In-Reply-To: <20040421031100.7E3B812894C@neal.il.is.s.u-tokyo.ac.jp> References: <20040421031100.7E3B812894C@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <4086007B.4090603@webgroup.co.jp> 亀山様     アドバイスをありがとうございます。    教えていただいた通りに256に変更したら  いきました。ずっと1,2,3GB単位で変更していたので、  サイズの勘違いをしていました。    ありがとうございました。    またよろしくお願いします。                         haddoc kameyama @ pccluster.org wrote: >亀山です. > >In article <4085DD4D.2070203 @ webgroup.co.jp> haddock wrotes: > > >>上記に対して、/etc/sysctl.confにkernel.shmmax = 8000000000を追加し、 >>ユーザ環境にもsetenv P4_GLOBMEMSIZE 8000000000を追加しました。 >> >> >>同じprogramをもう一度実行すると、 >> >> p0_23119: p4_error: exceeding max num of P4_MAX_SYSV_SHMIDS: 256 >> >>と出てしまっています。 >> >> > >compile し直さない限り, P4_GLOBMEMSIZE の上限は, >1 MB * 256 = 256 MB のようです. >これは多分, 同一 host 内の process 間での通信に使用するもののようなので, >多分, 8 GB もいらないと思います. >(そんなにとられると, プログラムのデータを置く領域がなくなってしまいますし...) >256 MB 付近を指定してみてはいかがでしょうか? > > from Kameyama Toyohisa > > > From sonja @ t-online.de Wed Apr 21 16:28:50 2004 From: sonja @ t-online.de (muamadin) Date: Wed, 21 Apr 2004 07:28:50 +0000 Subject: [SCore-users-jp] [SCore-users] presents Message-ID: <200404210738.i3L7c6X19221@pccluster.org> Весна! Время делать покупки и получать подарки. Магазин элитного постельного белья www.mypresent.biz приготовил для Вас свои подарки. _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From diver_oct1981 @ yahoo.co.jp Thu Apr 22 00:15:24 2004 From: diver_oct1981 @ yahoo.co.jp (P.D) Date: Thu, 22 Apr 2004 00:15:24 +0900 (JST) Subject: [SCore-users-jp] msgb,scout について In-Reply-To: <20040421024324.51331.qmail@web703.mail.yahoo.co.jp> Message-ID: <20040421151524.11577.qmail@web703.mail.yahoo.co.jp> 亀山様 やはり scout を行なうと以下のようなエラーがでてきます。 後はすべてうまくいっているようです。 [root @ scic97 score]# rsh-all -g pcc /opt/score/deploy/hostname-check 'scorehosts pcc' scic*************************.ac.jp scic*************************.ac.jp: scorehosts is not officialname in scic*********************.ac.jp scic*********************.ac.jp: officialname is scic*******************.jp from dns s とでてきてしまします。scepticもうまくいってます。 またscoutを行なうと [root @ scic97 score]# scout -g pcc bash: /opt/score5.6.0/deploy/scremote: No such file or directory とでてきてしまいます。 これはどのように対処すればいいのでしょうか。 どうぞよろしくお願いいたします。 ******************************* 駒澤 孝美 diver_oct1981 @ yahoo.co.jp ******************************* From kameyama @ pccluster.org Thu Apr 22 08:56:22 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Thu, 22 Apr 2004 08:56:22 +0900 Subject: [SCore-users-jp] msgb,scout について In-Reply-To: Your message of "Thu, 22 Apr 2004 00:15:24 JST." <20040421151524.11577.qmail@web703.mail.yahoo.co.jp> Message-ID: <20040421235116.3E3C812894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <20040421151524.11577.qmail @ web703.mail.yahoo.co.jp> "P.D" wrotes: > やはり > scout を行なうと以下のようなエラーがでてきます。 > 後はすべてうまくいっているようです。 > [root @ scic97 score]# rsh-all -g pcc > /opt/score/deploy/hostname-check 'scorehosts pcc' ここは ' ではなく, ` (バッククオート) を使用します. % rsh-all -g pcc /opt/score/deploy/hostname-check `scorehosts pcc` としてください. > またscoutを行なうと > [root @ scic97 score]# scout -g pcc > bash: /opt/score5.6.0/deploy/scremote: No such file or > directory > とでてきてしまいます。 すべての compute host に /opt/score5.6.0/deploy/ 以下をコピーするか, この部分を同じ path で見えるように NFS mount してください. from Kameyama Toyohisa From diver_oct1981 @ yahoo.co.jp Thu Apr 22 10:27:02 2004 From: diver_oct1981 @ yahoo.co.jp (P.D) Date: Thu, 22 Apr 2004 10:27:02 +0900 (JST) Subject: [SCore-users-jp] msgb,scout につい て In-Reply-To: <20040421235116.3E3C812894C@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <20040422012702.94992.qmail@web702.mail.yahoo.co.jp> 亀山様 基本的なことかもしれませんがご教授お願いいたします。 ServerへのSCoreSystemのインストールというマニュアルと ソースモジュールの展開とインストールというマニュアルが あるのですがマニュアルの順番的に ソースモジュールの展開とインストール を行ない、 # mkdir -p /opt/score/ # cd /opt/score # for tarfile in /opt/score.work/*.tar.gz # do # tar xzf $tarfile # done # cd score-src # ./configure # make # /opt/score/install/setup -score_server その後ここで、できたdeployを 他のホストにもコピーをして環境を調えます。 その後ServerへのSCoreSystemのインストールで # cd /opt/score.work # ./bininstall -server を行ないます。ここで環境を調えscoutを行なうと # scout -g pcc bash: /opt/score5.6.0/deploy/scremote: No such file or directory ということになってしまいます。 # cd /opt/score.work # ./bininstall -server を行なう前までは /opt/score/deploy/scremote が存在するのですが、行なった後では /opt/score5.6.0/deploy/scremote が存在していません。(score.oldには存在しています) そこで、 # cd /opt/score.work # ./bininstall -server を行なわずに環境を調えようとすると /etc/rc.d/init.d/msgbserv start でサーバーをみつけることが出来ないと言われてしまいます。 ソースファイルを展開することと # cd /opt/score.work # ./bininstall -server を行なうことが同じような気がしたためこのようなことを 行なったのですが何が違うのでしょうか。 # cd /opt/score.work # ./bininstall -server を行なうことは、環境をもう一度、調え直しているのでしょう か。そこで亀山様が言われたようにここで /opt/score5.6.0/deploy/ を他のホストにコピーするということは最初のソースを展開し た後の他のホストへのdeployのコピーはいらないということで しょうか。また、他のホストへdeployをNFSを使って deployを共有させてみたのですがやはり同じエラーがでてきま す。このような質問で申し訳ありませんがどうぞよろしくお願 いいたします。 ******************************* 駒澤 孝美 diver_oct1981 @ yahoo.co.jp ******************************* From kameyama @ pccluster.org Thu Apr 22 10:37:45 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Thu, 22 Apr 2004 10:37:45 +0900 Subject: [SCore-users-jp] msgb,scout について In-Reply-To: Your message of "Thu, 22 Apr 2004 10:27:02 JST." <20040422012702.94992.qmail@web702.mail.yahoo.co.jp> Message-ID: <20040422013239.B8ECF12894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <20040422012702.94992.qmail @ web702.mail.yahoo.co.jp> "P.D" wrotes: > その後ServerへのSCoreSystemのインストールで > # cd /opt/score.work > # ./bininstall -server すみません. マニュアルの bug です. source からの install の場合は, ここを無視して, 2. 以降を実行してください. これは rpm から install する方法なので, せっかく compile した結果が /opt/score.old に移動してしまいます. from Kameyama Toyohisa From yoshihiro551230 @ bc.wakwak.com Thu Apr 22 15:37:29 2004 From: yoshihiro551230 @ bc.wakwak.com (Yoshihiro ISHIKAWA) Date: Thu, 22 Apr 2004 15:37:29 +0900 Subject: [SCore-users-jp] <0> SCORE: Program signaled (SIGSEGV) Message-ID: <004a01c42834$48fd8080$6f501da0@airfoceone> メーリングリストの皆様 岩手大学の石川と申します.いつもお世話になっております. マルチユーザ環境でMPIを用いたプログラムを実行したところ, SCore-D 5.6.1 connected (jid=1). のメッセージが出たところで止まってしまうため,Ctrl+Cで終了 させると,今度は <0> SCORE: Program signaled (SIGSEGV) と出てしまいます.恐らくintel compiler 8.0を使用した時の 問題だと思うのですが・・・ この時のSCoreのコンパイルは以下のように行いました. (1)SCore5.6.1に全てのパッチを当ててmake (2)#cp site.exsample.intel siteとしてコピーした後,siteファイルの   intel=ifcのところをintel=ifortに変更. (3)mpichをsmakeし,smake installした. (4)mpi.buildやmpi.install等にエラーメッセージがないことを確認した. ”SCore5.6.1でintel compiler 8を使用する際のFAQ”通りに行うと, mpif90コマンドを実行した際に,mpich-1.2.5 is not installedと出て しまいます. なお,/opt/score/lib/*/libpthread.aは存在しませんでした. 以上について何かお分かりになることがありましたら,ご教授 お願い致します. ==================================== 岩手大学大学院工学研究科機械工学専攻 航空宇宙システム部門/船崎・山田研究室 修士課程2年 石川慶拓 Yoshihiro Ishikawa mail yoshihiro551230 @ bc.wakwak.com ==================================== From kameyama @ pccluster.org Thu Apr 22 16:16:36 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Thu, 22 Apr 2004 16:16:36 +0900 Subject: [SCore-users-jp] <0> SCORE: Program signaled (SIGSEGV) In-Reply-To: Your message of "Thu, 22 Apr 2004 15:37:29 JST." <004a01c42834$48fd8080$6f501da0@airfoceone> Message-ID: <20040422071129.13CB312894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <004a01c42834$48fd8080$6f501da0 @ airfoceone> "Yoshihiro ISHIKAWA" wrotes: > 岩手大学の石川と申します.いつもお世話になっております. > > マルチユーザ環境でMPIを用いたプログラムを実行したところ, > > SCore-D 5.6.1 connected (jid=1). > > のメッセージが出たところで止まってしまうため,Ctrl+Cで終了 > させると,今度は > > <0> SCORE: Program signaled (SIGSEGV) > > と出てしまいます.恐らくintel compiler 8.0を使用した時の > 問題だと思うのですが・・・ すみません. http://www.pccluster.org/pipermail/score-users-jp/2004-April/002183.html で書いたとおり, SCore 側も変更して, compile し直して user program も recompile する必要がありみたいです. (patch, FAQ を更新しました.) > この時のSCoreのコンパイルは以下のように行いました. > > (1)SCore5.6.1に全てのパッチを当ててmake > (2)#cp site.exsample.intel siteとしてコピーした後,siteファイルの >   intel=ifcのところをintel=ifortに変更. > (3)mpichをsmakeし,smake installした. > (4)mpi.buildやmpi.install等にエラーメッセージがないことを確認した. > > ”SCore5.6.1でintel compiler 8を使用する際のFAQ”通りに行うと, > mpif90コマンドを実行した際に,mpich-1.2.5 is not installedと出て > しまいます. すみません. intel8 ファイルに bug がありました. options{"intel8"} = sub { の部分は $options{"intel8"} = sub { の間違いでした. patch を更新しました. from Kameyama Toyohisa From hqzhou @ nju.edu.cn Thu Apr 22 13:04:37 2004 From: hqzhou @ nju.edu.cn (Huiqun Zhou) Date: Thu, 22 Apr 2004 12:04:37 +0800 Subject: [SCore-users-jp] [SCore-users] Receate installation disk for new NICs Message-ID: <001101c4281e$f637f9d0$1a00a8c0@geohpclab.nju.edu.cn> Hi, list users, I just replaced NICs of all my cluster machines (server and compute nodes). Is there a convenient way to change settings on the server and create new installation disk with new NIC driver without re-installing my server? Thanks in advance! Huiqun Zhou _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From k-ikegami @ aj.jp.nec.com Thu Apr 22 17:28:27 2004 From: k-ikegami @ aj.jp.nec.com (=?iso-2022-jp?b?ay1pa2VnYW1pIBskQiF3GyhCIGFqLmpwLm5lYy5jb20=?=) Date: Thu, 22 Apr 2004 17:28:27 +0900 Subject: [SCore-users-jp] PMのエラー等について In-Reply-To: <20040422071129.13CB312894C@neal.il.is.s.u-tokyo.ac.jp> References: <20040422071129.13CB312894C@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <20040422172827k-ikegami@mail.jp.nec.com> 池上と申します。 下記2点について、ご存知の方いらっしゃいましたらご教授 頂けないでしょうか? 1.SCore計算ホストのサーバ化 #0から#5までの6台のプロセッサで、 #0をSCoreサーバ、#1〜#5を計算ホストとして使用していました。 #0が故障したためクラスタ構成から除外し、#1をSCoreサーバ、残りの4台を 計算ホストとする場合、#1はゼロから再インストールするべきなのでしょうか? それとも、必要なファイルの更新だけで実現可能でしょうか? その場合、どのファイルを更新すべきでしょうか? 2.PM/Ethernetのエラー SCore上でプログラムを動かすと、PM/Ethernetのエラーが発生します。 (エラー発生例) PM Ethernet 0330 Version : "$Id: pm_ethernet_dev.c,v 1.3 2003/09/22 10:40:55 s-sumi Exp $" Device : eth0 Irq : 31 MTU : 1468 Bytes Maxnodes : 512 MaxContext : 16 Intreap : on Checksum : on Dev error : 16072 Header err : 0 Header cksum err: 4 Data cksum err : 0 Underrun err : 0 主な構成: ・SCoreサーバ1台 ・計算ホスト:2台(2×2CPU) ・スイッチ:SMC8624T(1000BaseT) ・SCore 5.6.1 RedHat 7.3 ・Omni OpenMP利用 上記の構成のクラスタが2式あり、双方で上記の様なDev ErrorやChecksum Errorが 発生しているので、HWの故障ではないと思うのですが、このような場合には何を 疑うべきでしょうか? ヒントを頂ければ幸いです。 /*----------------------------------------------*/ // 池上 光太郎 e-mail: k-ikegami @ aj.jp.nec.com From kameyama @ pccluster.org Thu Apr 22 17:55:57 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Thu, 22 Apr 2004 17:55:57 +0900 Subject: [SCore-users-jp] Re: [SCore-users] Receate installation disk for new NICs In-Reply-To: Your message of "Thu, 22 Apr 2004 12:04:37 JST." <001101c4281e$f637f9d0$1a00a8c0@geohpclab.nju.edu.cn> Message-ID: <20040422085050.C4CB012894C@neal.il.is.s.u-tokyo.ac.jp> In article <001101c4281e$f637f9d0$1a00a8c0 @ geohpclab.nju.edu.cn> "Huiqun Zhou" wrotes: > I just replaced NICs of all my cluster machines (server and compute nodes). > Is there a convenient way to change settings on the server and create new > installation disk with new NIC driver without re-installing my server? Basically, you replacy only NIC driver on the all hosts and (id you use PM/ethernet) pm-ethernet.conf. If the NIC driver module is in current kernel, please edit /etc/modules.conf. Otherwise you must get tghe NIC driver and compile it. If you use PM/ethernet, please replace pm-ethernet.conf. This file can be create "mkpmethernetconf" command for example: % mkpmethernetconf -g pcc -speed 100 > /opt/score/etc/pm-ethernet.conf Please see also following manual: http://www.pccluster.org/score/dist/score/html/en/man/man8/mkpmethernetconf.html from Kameyama Toyohisa _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From diver_oct1981 @ yahoo.co.jp Thu Apr 22 18:12:20 2004 From: diver_oct1981 @ yahoo.co.jp (P.D) Date: Thu, 22 Apr 2004 18:12:20 +0900 (JST) Subject: [SCore-users-jp] scout につい て In-Reply-To: <20040421235116.3E3C812894C@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <20040422091220.82588.qmail@web705.mail.yahoo.co.jp> 亀山様 いつもお世話になります駒澤です。 ご迷惑をおかけいたしますがアドバイスをどうぞよろしくお願 いいたします。 [root @ scic97 score]# rsh-all -g pcc /opt/score/deploy/hostname-check `scorehosts pcc` をおこなったところ 3 hosts found. scic97.*******.ac.jp scic98.*******.ac.jp scic99.*******.ac.jp scic97.*******.ac.jp: scic97.*****.ac.jp is OK scic97.*******.ac.jp: scic98.*****.ac.jp is OK scic97.*******.ac.jp: scic99.*****.ac.jp is OK scic98.*******.ac.jp: scic97.*****.ac.jp is OK scic98.*******.ac.jp: scic98.*****.ac.jp is OK scic98.*******.ac.jp: scic99.*****.ac.jp is OK scic99.*******.ac.jp: scic97.*****.ac.jp is OK scic99.*******.ac.jp: scic98.*****.ac.jp is OK scic99.*******.ac.jp: scic99.*****.ac.jp is OK とすべてOKがでてきました。 その後 [root @ scic97 root]# scout -g pcc SCOUT: Spawning scic97.sci.u-ryukyu.ac.jp [scic97.********.ac.jp]: Spawn timed out. SCOUT: Session done. となってしまいます。そこで /etc/hosts.equiv を見なおすのですがエラーがないようにおもわれます 一応/hosts.equivの中です scic97.**********.ac.jp scic98.**********.ac.jp scic99.**********.ac.jp あとはエラーもでずうまくいっているように思われます。 どうぞよろしくお願いいたします。 ******************************* 駒澤 孝美 diver_oct1981 @ yahoo.co.jp ******************************* From diver_oct1981 @ yahoo.co.jp Thu Apr 22 21:30:37 2004 From: diver_oct1981 @ yahoo.co.jp (P.D) Date: Thu, 22 Apr 2004 21:30:37 +0900 (JST) Subject: [SCore-users-jp] Re: [SCore-users-jp]scout について In-Reply-To: <20040420053914.D541212894C@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <20040422123037.86960.qmail@web703.mail.yahoo.co.jp> 亀山樣. いつもお世話になります駒澤です。 scorehosts.db の中身の内容を変更することで動きました。 いままで色々と丁寧にありがとうございます。 また、何かありましたらご教授ください。 本当にありがとうございました。 ******************************* 駒澤 孝美 diver_oct1981 @ yahoo.co.jp ******************************* From kameyama @ pccluster.org Fri Apr 23 09:06:21 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Fri, 23 Apr 2004 09:06:21 +0900 Subject: [SCore-users-jp] PMのエラー等について In-Reply-To: Your message of "Thu, 22 Apr 2004 17:28:27 JST." <20040422172827k-ikegami@mail.jp.nec.com> Message-ID: <20040423000112.21DD612894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <20040422172827k-ikegami @ mail.jp.nec.com> k-ikegami @ aj.jp.nec.com wrotes: > 1.SCore計算ホストのサーバ化 > #0から#5までの6台のプロセッサで、 > #0をSCoreサーバ、#1〜#5を計算ホストとして使用していました。 > #0が故障したためクラスタ構成から除外し、#1をSCoreサーバ、残りの4台 > を > 計算ホストとする場合、#1はゼロから再インストールするべきなのでしょうか? > それとも、必要なファイルの更新だけで実現可能でしょうか? install の仕方にもよりますが, EIT で install したのでしたら compiler をはじめ基本的なコマンドが入っていませんので, 多分, 再 install したほうが早いと思います. redhat などを full install したあとで SCore を install したのでしたら, 多分, SCore の server 部分をインストールすれば良いと思います. ここも SCore をどのように install したかに依存します. > 2.PM/Ethernetのエラー > SCore上でプログラムを動かすと、PM/Ethernetのエラーが発生します。 こちらでも起こっていますので, 動作に問題がなければ気にしなくて 良いように思います/ from Kameyama Toyohisa From domon_ay_8 @ yahoo.co.jp Fri Apr 23 13:16:11 2004 From: domon_ay_8 @ yahoo.co.jp (安田   陽) Date: Fri, 23 Apr 2004 13:16:11 +0900 (JST) Subject: [SCore-users-jp] server setup 時のエラー Message-ID: <20040423041611.80055.qmail@web2306.mail.yahoo.co.jp> 岐阜大学 安田です。 現在PC2台のクラスタを構築しています。 サーバホスト(兼 計算ホスト)にRedHat9をフルインストールし 、Score5.6.1をインストール後、EITにより作業をすすめ計算 ホストのインストールまで無事に終わりました。(計算ホスト 画面 comp0 login:) しかし、「PCCC SCore5.6 Easy Installation Tool」画面にお いて NEXTを実行したところ以下のようなエラーメッセージが出まし た。 Cannot create /opt/score/etc/pm-ethernet.conf “/opt/score/etc/ndconf/pmethernetconf-skelton:1:13:0: そのようなファイルやディレクトリはありません” 無事に計算ホストのインストールは終わっていますので、なぜ このようなメッセージが出るのかわかりません。 お気づきの点および対処法を教えていただけないでしょうか。 よろしくお願いします。 __________________________________________________ Do You Yahoo!? http://bb.yahoo.co.jp/ From kameyama @ pccluster.org Fri Apr 23 13:54:36 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Fri, 23 Apr 2004 13:54:36 +0900 Subject: [SCore-users-jp] server setup 時のエラー In-Reply-To: Your message of "Fri, 23 Apr 2004 13:16:11 JST." <20040423041611.80055.qmail@web2306.mail.yahoo.co.jp> Message-ID: <20040423044926.2916B12894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <20040423041611.80055.qmail @ web2306.mail.yahoo.co.jp> 安田 陽 wrotes: > サーバホスト(兼 計算ホスト)にRedHat9をフルインストールし > 、Score5.6.1をインストール後、EITにより作業をすすめ計算 > ホストのインストールまで無事に終わりました。 SCore のリリースで提供している binary は redhat 7.3 用なので, redhat 9 では動かない可能性が高いです. > ホストのインストールまで無事に終わりました。(計算ホスト > 画面 comp0 login:) > しかし、「PCCC SCore5.6 Easy Installation Tool」画面にお > いて > NEXTを実行したところ以下のようなエラーメッセージが出まし > た。 > Cannot create /opt/score/etc/pm-ethernet.conf > “/opt/score/etc/ndconf/pmethernetconf-skelton:1:13:0: > そのようなファイルやディレクトリはありません” その前のほうで Server host is also a Compute Host whose number is 0 とかいう message が出ていると思います. その時点で /opt/score/setup/install/hostinfo server_host_name /opt/score/etc/ndconf を実行しているはずなんですが, そのコマンドのエラーは出ていないでしょうか? 多分これを手動で実行してから, もう一度 Next をおせば続きを実行すると 思います. from Kameyama Toyohisa From k-ikegami @ aj.jp.nec.com Fri Apr 23 15:20:41 2004 From: k-ikegami @ aj.jp.nec.com (=?iso-2022-jp?b?ay1pa2VnYW1pIBskQiF3GyhCIGFqLmpwLm5lYy5jb20=?=) Date: Fri, 23 Apr 2004 15:20:41 +0900 Subject: [SCore-users-jp] Re: [SCore-users-jp]PMのエラー等について In-Reply-To: <20040423000112.21DD612894C@neal.il.is.s.u-tokyo.ac.jp> References: <20040423000112.21DD612894C@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <20040423152041k-ikegami@mail.jp.nec.com> 池上です。 亀山様、レスポンス頂きありがとうございます。 >> 1.SCore計算ホストのサーバ化 再インストールした方が無難のようですね。 >> 2.PM/Ethernetのエラー > >こちらでも起こっていますので, 動作に問題がなければ気にしなくて >良いように思います/ > 残念ながら、APの動作に問題(たまにスタックする)があり、 問題の切り分けを行うべく質問させて頂いた次第です。 亀山様の環境では、どの程度の頻度でエラーが発生してるのでしょうか? 当方、毎回頻度は異なりますが、前回のログは、APを半日動作させた結果です。 /*----------------------------------------------*/ // 池上 光太郎 e-mail: k-ikegami @ aj.jp.nec.com From yoshihiro551230 @ bc.wakwak.com Fri Apr 23 15:26:51 2004 From: yoshihiro551230 @ bc.wakwak.com (Yoshihiro ISHIKAWA) Date: Fri, 23 Apr 2004 15:26:51 +0900 Subject: [SCore-users-jp] <0> SCORE: Program signaled (SIGSEGV) References: <20040422071129.13CB312894C@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <00c001c428fb$fa26ddd0$6f501da0@airfoceone> 亀山様 岩手大学の石川です. ご指摘の場所を修正して再コンパイルしたところ,問題なく動作しました. 本当にありがとうございました.また何かあればよろしくお願いいたします. ==================================== 岩手大学大学院工学研究科機械工学専攻 航空宇宙システム部門/船崎・山田研究室 修士課程2年 石川慶拓 Yoshihiro Ishikawa mail yoshihiro551230 @ bc.wakwak.com ==================================== From s-sumi @ flab.fujitsu.co.jp Fri Apr 23 15:37:09 2004 From: s-sumi @ flab.fujitsu.co.jp (Shinji Sumimoto) Date: Fri, 23 Apr 2004 15:37:09 +0900 (JST) Subject: [SCore-users-jp] PMのエラー等について In-Reply-To: <20040422172827k-ikegami@mail.jp.nec.com> References: <20040422071129.13CB312894C@neal.il.is.s.u-tokyo.ac.jp> <20040422172827k-ikegami@mail.jp.nec.com> Message-ID: <20040423.153709.783380059.s-sumi@flab.fujitsu.co.jp> 富士通研の住元です。 From: k-ikegami @ aj.jp.nec.com Subject: [SCore-users-jp] PMのエラー等について Date: Thu, 22 Apr 2004 17:28:27 +0900 Message-ID: <20040422172827k-ikegami @ mail.jp.nec.com> k-ikegami> 2.PM/Ethernetのエラー k-ikegami> SCore上でプログラムを動かすと、PM/Ethernetのエラーが発生します。 k-ikegami> (エラー発生例) k-ikegami> PM Ethernet 0330 k-ikegami> Version : "$Id: pm_ethernet_dev.c,v 1.3 2003/09/22 10:40:55 s-sumi Exp $" k-ikegami> Device : eth0 k-ikegami> Irq : 31 k-ikegami> MTU : 1468 Bytes k-ikegami> Maxnodes : 512 k-ikegami> MaxContext : 16 k-ikegami> Intreap : on k-ikegami> Checksum : on k-ikegami> Dev error : 16072 これは、気にしなくていいですが、 k-ikegami> Header err : 0 k-ikegami> Header cksum err: 4 このエラーは、普通は置きません。 どこかでデータ化けが起きています。 k-ikegami> Data cksum err : 0 利用されているシステムとNIC(ドライバのバージョン)は何でしょうか? あと、ifconfigの結果で同様にエラーが出ていたりしないでしょうか? k-ikegami> Underrun err : 0 k-ikegami> k-ikegami> 主な構成: k-ikegami> ・SCoreサーバ1台 k-ikegami> ・計算ホスト:2台(2×2CPU) k-ikegami> ・スイッチ:SMC8624T(1000BaseT) k-ikegami> ・SCore 5.6.1 RedHat 7.3 k-ikegami> ・Omni OpenMP利用 k-ikegami> k-ikegami> 上記の構成のクラスタが2式あり、双方で上記の様なDev ErrorやChecksum Errorが k-ikegami> 発生しているので、HWの故障ではないと思うのですが、このような場合には何を k-ikegami> 疑うべきでしょうか? この2つのクラスタは同じスイッチにつながっているのでしょうか? もし、同 じスイッチにつながっているのであれば、スイッチが怪しいのかも知れません。 以前、スイッチに内蔵されているバッファメモリのビット化けにより同様の現 象に遭遇したことがあります。 k-ikegami> ヒントを頂ければ幸いです。 k-ikegami> k-ikegami> /*----------------------------------------------*/ k-ikegami> // 池上 光太郎 e-mail: k-ikegami @ aj.jp.nec.com k-ikegami> _______________________________________________ k-ikegami> SCore-users-jp mailing list k-ikegami> SCore-users-jp @ pccluster.org k-ikegami> http://www.pccluster.org/mailman/listinfo/score-users-jp k-ikegami> k-ikegami> ------ Shinji Sumimoto, Fujitsu Labs From k-ikegami @ aj.jp.nec.com Fri Apr 23 17:31:35 2004 From: k-ikegami @ aj.jp.nec.com (=?iso-2022-jp?b?ay1pa2VnYW1pIBskQiF3GyhCIGFqLmpwLm5lYy5jb20=?=) Date: Fri, 23 Apr 2004 17:31:35 +0900 Subject: [SCore-users-jp] Re: [SCore-users-jp]PMのエラー等について In-Reply-To: <20040423.153709.783380059.s-sumi@flab.fujitsu.co.jp> References: <20040423.153709.783380059.s-sumi@flab.fujitsu.co.jp> Message-ID: <20040423173135k-ikegami@mail.jp.nec.com> 池上です。 住元様、レスポンスありがとうございす。 >利用されているシステムとNIC(ドライバのバージョン)は何でしょうか? プロセッサ NEC Express5800/120Rd-1 NIC:オンボード×2     チップ Intel 82546EB     ドライバ e1000(5.2.16) です。 >あと、ifconfigの結果で同様にエラーが出ていたりしないでしょうか? 当初は、エラーが発生していましたが、ドライバパラメータに下記の変更を加えてからは 発生しておりません。 ・InterruptThrottleRate(CPUへの割り込み制限。100〜100000:デフォルト1(dynamic))  をoff(0)に変更。 ・RxDescriptors(受信側ディスクリプタ:デフォルト256)を1024に変更。 >この2つのクラスタは同じスイッチにつながっているのでしょうか? もし、同 >じスイッチにつながっているのであれば、スイッチが怪しいのかも知れません。 > >以前、スイッチに内蔵されているバッファメモリのビット化けにより同様の現 >象に遭遇したことがあります。 二つのクラスタは完全に分離されており、スイッチも物理的に別のものです。 プロセッサ、スイッチともに型番は全く同じものです。 同じスイッチ(SMC8624T)を使用しておられる方いらっしゃいませんか? 安心したいのですが。。 /*----------------------------------------------*/ // 池上 光太郎 e-mail: k-ikegami @ aj.jp.nec.com From s-sumi @ flab.fujitsu.co.jp Fri Apr 23 17:43:34 2004 From: s-sumi @ flab.fujitsu.co.jp (Shinji Sumimoto) Date: Fri, 23 Apr 2004 17:43:34 +0900 (JST) Subject: [SCore-users-jp] Re: [SCore-users-jp]PMのエラー等について In-Reply-To: <20040423173135k-ikegami@mail.jp.nec.com> References: <20040423.153709.783380059.s-sumi@flab.fujitsu.co.jp> <20040423173135k-ikegami@mail.jp.nec.com> Message-ID: <20040423.174334.971167627.s-sumi@flab.fujitsu.co.jp> 池上様 富士通研の住元です。 From: k-ikegami @ aj.jp.nec.com Subject: [SCore-users-jp] Re: [SCore-users-jp]PMのエラー等について Date: Fri, 23 Apr 2004 17:31:35 +0900 Message-ID: <20040423173135k-ikegami @ mail.jp.nec.com> k-ikegami> 池上です。 k-ikegami> k-ikegami> 住元様、レスポンスありがとうございす。 k-ikegami> k-ikegami> >利用されているシステムとNIC(ドライバのバージョン)は何でしょうか? k-ikegami> k-ikegami> プロセッサ NEC Express5800/120Rd-1 k-ikegami> NIC:オンボード×2 k-ikegami>     チップ Intel 82546EB k-ikegami>     ドライバ e1000(5.2.16) k-ikegami> です。 k-ikegami> k-ikegami> >あと、ifconfigの結果で同様にエラーが出ていたりしないでしょうか? k-ikegami> k-ikegami> 当初は、エラーが発生していましたが、ドライバパラメータに下記の変更を加えてからは k-ikegami> 発生しておりません。 k-ikegami> k-ikegami> ・InterruptThrottleRate(CPUへの割り込み制限。100〜100000:デフォルト1(dynamic)) k-ikegami>  をoff(0)に変更。 k-ikegami> ・RxDescriptors(受信側ディスクリプタ:デフォルト256)を1024に変更。 2ノードクラスでもRX errorが出るようですね、ドライバの初期値を変更した ほうが良さそうですね、、 k-ikegami> >この2つのクラスタは同じスイッチにつながっているのでしょうか? もし、同 k-ikegami> >じスイッチにつながっているのであれば、スイッチが怪しいのかも知れません。 k-ikegami> > k-ikegami> >以前、スイッチに内蔵されているバッファメモリのビット化けにより同様の現 k-ikegami> >象に遭遇したことがあります。 k-ikegami> k-ikegami> 二つのクラスタは完全に分離されており、スイッチも物理的に別のものです。 k-ikegami> プロセッサ、スイッチともに型番は全く同じものです。 k-ikegami> k-ikegami> 同じスイッチ(SMC8624T)を使用しておられる方いらっしゃいませんか? k-ikegami> 安心したいのですが。。 2台ともそうなのであれば、スイッチ個体の問題ではないですね、 スイッチの問題かどうかを切り分けるために、100BTで結構ですので別のスイッ チに接続してどうなるかを見て頂けないでしょうか? ------ Shinji Sumimoto, Fujitsu Labs From yoshihiro551230 @ bc.wakwak.com Fri Apr 23 22:33:30 2004 From: yoshihiro551230 @ bc.wakwak.com (Yoshihiro ISHIKAWA) Date: Fri, 23 Apr 2004 22:33:30 +0900 Subject: [SCore-users-jp] SCOUT: grantpt()=2 Message-ID: <001f01c42937$90fdd1b0$6f501da0@airfoceone> メーリングリストの皆様 岩手大学の石川と申します.いつもお世話になっております. Redhat 9+SCore-5.6.1+intel compiler 8でクラスタを構築し,scout環境に 入ろうとすると, # scout -g all done. SCOUT: session started. SCOUT: grantpt()=2 SCOUT: Session done. となってしまい,scout環境に入れません.他のPCでは正常に動作した のですが,なぜかこのPCではこのような現象が起きました. 以上についてなにかお分かりになりましたら,ご教授お願い致します. ==================================== 岩手大学大学院工学研究科機械工学専攻 航空宇宙システム部門/船崎・山田研究室 修士課程2年 石川慶拓 Yoshihiro Ishikawa mail yoshihiro551230 @ bc.wakwak.com ==================================== From kameyama @ pccluster.org Mon Apr 26 13:38:52 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Mon, 26 Apr 2004 13:38:52 +0900 Subject: [SCore-users-jp] SCOUT: grantpt()=2 In-Reply-To: Your message of "Fri, 23 Apr 2004 22:33:30 JST." <001f01c42937$90fdd1b0$6f501da0@airfoceone> Message-ID: <20040426043332.B605112894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <001f01c42937$90fdd1b0$6f501da0 @ airfoceone> "Yoshihiro ISHIKAWA" wrotes: > Redhat 9+SCore-5.6.1+intel compiler 8でクラスタを構築し,scout環境に > 入ろうとすると, > > # scout -g all > done. > SCOUT: session started. > SCOUT: grantpt()=2 > SCOUT: Session done. > > となってしまい,scout環境に入れません.他のPCでは正常に動作した > のですが,なぜかこのPCではこのような現象が起きました. grantpt() は pseudo tty のアクセス権を制御する関数です. 使用可能な pseudo tty が見つからないことが考えられます. pty をどれくらい使用しているか調べてみてください. from Kameyama Toyohisa From k-ikegami @ aj.jp.nec.com Mon Apr 26 14:02:03 2004 From: k-ikegami @ aj.jp.nec.com (=?iso-2022-jp?b?ay1pa2VnYW1pIBskQiF3GyhCIGFqLmpwLm5lYy5jb20=?=) Date: Mon, 26 Apr 2004 14:02:03 +0900 Subject: [SCore-users-jp] Re: [SCore-users-jp]PMのエラー等について In-Reply-To: <20040423.174334.971167627.s-sumi@flab.fujitsu.co.jp> References: <20040423.174334.971167627.s-sumi@flab.fujitsu.co.jp> Message-ID: <20040426140203k-ikegami@mail.jp.nec.com> 住元様 池上です。 >k-ikegami> >この2つのクラスタは同じスイッチにつながっているのでしょうか? もし、同 >k-ikegami> >じスイッチにつながっているのであれば、スイッチが怪しいのかも知れません。 >k-ikegami> > >k-ikegami> >以前、スイッチに内蔵されているバッファメモリのビット化けにより同様の現 >k-ikegami> >象に遭遇したことがあります。 >k-ikegami> >k-ikegami> 二つのクラスタは完全に分離されており、スイッチも物理的に別のものです。 >k-ikegami> プロセッサ、スイッチともに型番は全く同じものです。 >k-ikegami> >k-ikegami> 同じスイッチ(SMC8624T)を使用しておられる方いらっしゃいませんか? >k-ikegami> 安心したいのですが。。 > >2台ともそうなのであれば、スイッチ個体の問題ではないですね、 > >スイッチの問題かどうかを切り分けるために、100BTで結構ですので別のスイッ >チに接続してどうなるかを見て頂けないでしょうか? マシンを常時触れる環境に無いので、直ぐには試せないのですが、 実施次第、報告させて頂きます。 (質問しておいて申し訳ありません。) /*----------------------------------------------*/ // 池上 光太郎 e-mail: k-ikegami @ aj.jp.nec.com From domon_ay_8 @ yahoo.co.jp Mon Apr 26 14:59:36 2004 From: domon_ay_8 @ yahoo.co.jp (安田   陽) Date: Mon, 26 Apr 2004 14:59:36 +0900 (JST) Subject: [SCore-users-jp] SCOUT テスト Message-ID: <20040426055936.95558.qmail@web2302.mail.yahoo.co.jp> 岐阜大学 安田です。 PC2台のクラスタを構築中で、 サーバーホスト(兼 計算ホスト)にRedHat7.3を フルインストール後、Score5.6.1をインストールし、 EITを用いて計算ホストのインストールまで無事に終わりまし た。 コンソーシアムHPに記載の各テストを実行したところ、 以下の点において問題が出ました。 ・SCOUTテスト  Single-User環境でサンプルコマンドを実行 において $data を実行したところ [server,comp0]: bash:data:command not found となりました。dataコマンド以外のSCOUTテストはうまくいき ました。 ・PM/Ethernetのテスト  一対一ネットワークテストはうまくいきましたが、 総合テストを実行したところ No such network (Ethernet) No such network (Ethernet) というメッセージが出ました。 上記についてどこに問題があるのかお気づきになられましたら ご教授いただけないでしょうか。 よろしくお願いします。   __________________________________________________ Do You Yahoo!? http://bb.yahoo.co.jp/ From kameyama @ pccluster.org Mon Apr 26 15:04:50 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Mon, 26 Apr 2004 15:04:50 +0900 Subject: [SCore-users-jp] SCOUT テスト In-Reply-To: Your message of "Mon, 26 Apr 2004 14:59:36 JST." <20040426055936.95558.qmail@web2302.mail.yahoo.co.jp> Message-ID: <20040426055930.E4ECB12894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <20040426055936.95558.qmail @ web2302.mail.yahoo.co.jp> 安田 陽 wrotes: > ・SCOUTテスト >  Single-User環境でサンプルコマンドを実行 において > $data > を実行したところ data ではなく, date なんですが... > ・PM/Ethernetのテスト >  一対一ネットワークテストはうまくいきましたが、 > 総合テストを実行したところ > > No such network (Ethernet) > No such network (Ethernet) network 名は Ethernet にしたのでしょうか? EIT で install したのでしたら, 通常 ethernet なんですが... from Kameyama Toyohisa From yoshihiro551230 @ bc.wakwak.com Mon Apr 26 15:45:06 2004 From: yoshihiro551230 @ bc.wakwak.com (Yoshihiro ISHIKAWA) Date: Mon, 26 Apr 2004 15:45:06 +0900 Subject: [SCore-users-jp] SCOUT: grantpt()=2 Message-ID: <00b001c42b5a$02df82f0$6f501da0@airfoceone> 亀山様 岩手大学の石川です.いつもお世話になっております. #ps -le で調べたところ,ttypとなっているプロセスがいくつかあり, 調べ方がこれでよいのか定かではなかったのですが, とりあえず,killしてttypが4つになるようにしました. この状態でscout環境に入ろうとしたのですが,やはり 入れませんでした. 他に考えられるようなことはありますでしょうか? ==================================== 岩手大学大学院工学研究科機械工学専攻 航空宇宙システム部門/船崎・山田研究室 修士課程2年 石川慶拓 Yoshihiro Ishikawa mail yoshihiro551230 @ bc.wakwak.com ==================================== From kameyama @ pccluster.org Mon Apr 26 16:03:15 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Mon, 26 Apr 2004 16:03:15 +0900 Subject: [SCore-users-jp] SCOUT: grantpt()=2 In-Reply-To: Your message of "Mon, 26 Apr 2004 15:45:06 JST." <00b001c42b5a$02df82f0$6f501da0@airfoceone> Message-ID: <20040426065755.657A312894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <00b001c42b5a$02df82f0$6f501da0 @ airfoceone> "Yoshihiro ISHIKAWA" wrotes: > 岩手大学の石川です.いつもお世話になっております. > > #ps -le > > で調べたところ,ttypとなっているプロセスがいくつかあり, > 調べ方がこれでよいのか定かではなかったのですが, > とりあえず,killしてttypが4つになるようにしました. 端末名が ttyp* になっていましたか... scout では pts/* という名前になるような configuration を想定しています. ttyp* になるということは kernel か /etc/fstab の問題だと思います. 自分で kernel を compile したとすると Character device で Unix98 PTY support を y, file system で /dev/pts file system for Unix98 PTYs を y と答える必要があります. また, /etc/fstab に none /dev/pts devpts gid=5,mode=620 0 0 が含まれており, /dev/pts が mount されている必要があります. このあたりの設定は大丈夫でしょうか? from Kameyama Toyohisa From yoshihiro551230 @ bc.wakwak.com Mon Apr 26 17:44:34 2004 From: yoshihiro551230 @ bc.wakwak.com (Yoshihiro ISHIKAWA) Date: Mon, 26 Apr 2004 17:44:34 +0900 Subject: [SCore-users-jp] SCOUT: grantpt()=2 References: <20040426065755.657A312894C@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <00ba01c42b6a$b3424910$6f501da0@airfoceone> 亀山様 岩手大学の石川です.ご返信ありがとうございます. カーネルの Unix98 PTY support /dev/pts file system for Unix98 PTYs と /etc/fstabの none /dev/pts devpts gid=5,mode=620 0 0 は大丈夫でした. これ以外だと何が考えられるでしょうか? ==================================== 岩手大学大学院工学研究科機械工学専攻 航空宇宙システム部門/船崎・山田研究室 修士課程2年 石川慶拓 Yoshihiro Ishikawa mail yoshihiro551230 @ bc.wakwak.com ==================================== From kameyama @ pccluster.org Mon Apr 26 18:00:25 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Mon, 26 Apr 2004 18:00:25 +0900 Subject: [SCore-users-jp] SCOUT: grantpt()=2 In-Reply-To: Your message of "Mon, 26 Apr 2004 17:44:34 JST." <00ba01c42b6a$b3424910$6f501da0@airfoceone> Message-ID: <20040426085505.5644312894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <00ba01c42b6a$b3424910$6f501da0 @ airfoceone> "Yoshihiro ISHIKAWA" wrotes: > カーネルの > Unix98 PTY support > /dev/pts file system for Unix98 PTYs > と > /etc/fstabの > none /dev/pts devpts gid=5,mode=620 0 0 > は大丈夫でした. % mount としたときに /dev/pts は mount されているでしょうか? されているとしたら. % ls /dev/pts としたときに file が存在しているでしょうか? (pty を使おうとすると /dev/pts/0 のようなファイルができるはずなんです.) 両方ともよさそうなら, strace してみるしか... % strace -f -o /tmp/strace scout -g pcc % ^D を実行すると, /tmp/strace に scout が実行した system call が 記録されます. 正常でしたら 4655 open("/dev/ptmx", O_RDWR) = 3 4655 ioctl(3, SNDCTL_TMR_TIMEBASE or TCGETS, {B38400 opost isig icanon echo ...}) = 0 4655 ioctl(3, TIOCGPTN, [1]) = 0 4655 stat("/dev/pts/1", {st_mode=S_IFCHR|0620, st_rdev=makedev(136, 1), ...}) = 0 4655 statfs("/dev/pts/1", {f_type="DEVPTS_SUPER_MAGIC", f_bsize=1024, f_blocks=0, f_bfree=0, f_bavail=0, f_files=0, f_ffree=0, f_fsid={0, 0}, f_namelen=255, f_frsize=0}) = 0 のように出るはずなんですが, 多分, open("/dev/ptmx", O_RDWR) は成功して 次のどこかで失敗っしていると思うのですが... from Kameyama Toyohisa From yoshihiro551230 @ bc.wakwak.com Mon Apr 26 18:22:15 2004 From: yoshihiro551230 @ bc.wakwak.com (Yoshihiro ISHIKAWA) Date: Mon, 26 Apr 2004 18:22:15 +0900 Subject: [SCore-users-jp] SCOUT: grantpt()=2 References: <20040426085505.5644312894C@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <00ca01c42b6f$f6f2ad80$6f501da0@airfoceone> 亀山様 岩手大学の石川です. > % mount > としたときに /dev/pts は mount されているでしょうか? されていませんでした.そこで, %mount /dev/pts を実行したところ,scout環境に入れました. この度はありがとうございました.今後ともよろしくお願い致します. ==================================== 岩手大学大学院工学研究科機械工学専攻 航空宇宙システム部門/船崎・山田研究室 修士課程2年 石川慶拓 Yoshihiro Ishikawa mail yoshihiro551230 @ bc.wakwak.com ==================================== From honjo @ murata.co.jp Tue Apr 27 11:11:20 2004 From: honjo @ murata.co.jp (Hisaki Honjo) Date: Tue, 27 Apr 2004 11:11:20 +0900 Subject: [SCore-users-jp] メモリの解放について Message-ID: <200404271111.IGG92980.PKPOI@murata.co.jp> はじめまして。 本庄と申します。 SCoreを使ってPCクラスタを構築しているのですが、 どうしても分からないことがあり、投稿させていただきました。 現在、ある程度大きなメモリを「一時的」に必要とするシステムを作成しています。 この、「一時的」なメモリは不要になったらすぐに解放しているのですが、 どうも、プロセスが終了するまで解放されていないような挙動を示します。 試しに、簡単なプログラム(添付)を作成し、 topコマンドにて各ノードのメモリ消費量を監視してみると、 やはり、プロセスが終了するまでメモリが解放されていません。 本来なら、「pause 2」の時点で解放されているはず… ただし、1ノードのみの実行だと解放実行直後に ちゃんとメモリが解放されていることが確認されています。 つまり、複数台で並列化した場合のみ発生します。 これはなぜなのでしょうか? プログラムに問題がある場合はアドバイス頂けないでしょうか。 MLの過去ログなども調べてみたのですが、該当する内容が見当たりませんでした。 よろしくお願いいたします。 補足:システムはテスト段階のため、非力なPCを使用しています。    そのため、一時領域を作成する時点で物理メモリが圧倒的に不足しており、    殆どスワップメモリが使用されます。 ---[環境]------------------------------------- RedHat Linux 7.3 (Kernel 2.4.21-1SCORE) SCore 5.6.1 Memory 物理:192MB, スワップ:1GB CPU : PentiumIII 466MHz Single x 4 ---------------------------------------------- ---[ソース]----------------------------------- #include #include #include int main(int argc, char **argv) { int nProcess; int nID; double * pData; int i; // MPI初期化 MPI_Init( &argc, &argv ); MPI_Comm_size( MPI_COMM_WORLD, &nProcess ); MPI_Comm_rank( MPI_COMM_WORLD, &nID ); // メモリ確保(500MB) pData = (double *)malloc( sizeof(double) * ( 8096 * 8095 ) ); for ( i=0; i mpicc main.c -o test 実行(OK) > scrun -nodes=1 ./test 実行(NG) > scrun -nodes=2 ./test ---------------------------------------------- ------------------------ 本庄 央樹(Honjo Hisaki) ------------------------ From honjo @ murata.co.jp Tue Apr 27 11:20:09 2004 From: honjo @ murata.co.jp (Hisaki Honjo) Date: Tue, 27 Apr 2004 11:20:09 +0900 Subject: [SCore-users-jp] Re:メモリの解放について In-Reply-To: <200404271111.IGG92980.PKPOI@murata.co.jp> References: <200404271111.IGG92980.PKPOI@murata.co.jp> Message-ID: <200404271120.FJD05483.PKPIO@murata.co.jp> 自己レスです。 ソースが間違っていました。 main関数の前半を以下のように修正します。 申し訳ありません。 ---------- const int nSize = 8096 * 8095; int nProcess; int nID; double * pData; int i; // MPI初期化 MPI_Init( &argc, &argv ); MPI_Comm_size( MPI_COMM_WORLD, &nProcess ); MPI_Comm_rank( MPI_COMM_WORLD, &nID ); // メモリ確保(500MB) pData = (double *)malloc( sizeof(double) * nSize ); for ( i=0; i Message-ID: <20040427030807.818FC12894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <200404271111.IGG92980.PKPOI @ murata.co.jp> Hisaki Honjo wrotes: > 現在、ある程度大きなメモリを「一時的」に必要とするシステムを作成しています。 > この、「一時的」なメモリは不要になったらすぐに解放しているのですが、 > どうも、プロセスが終了するまで解放されていないような挙動を示します。 はい. SCore では zerocopy 通信により他のプログラムの領域を読み書き させないため確保した memory を開放しないようにしています. > ただし、1ノードのみの実行だと解放実行直後に > ちゃんとメモリが解放されていることが確認されています。 > つまり、複数台で並列化した場合のみ発生します。 1 process の場合は通信を行わないので, この処理を行っていません. > 補足:システムはテスト段階のため、非力なPCを使用しています。 >    そのため、一時領域を作成する時点で物理メモリが圧倒的に不足しており、 >    殆どスワップメモリが使用されます。 これは, 内部で mallopt(M_TRIM_THRESHOLD, LONG_MAX); にあたることを行っています. M_TRIM_THRESHOLD で malloc で開放しないサイズの最大値を与えます. zerocopy k通信を行わない (-mpi_zerocopy をつけない) のであれば mallopt() を明示的に呼び出して開放するようにすることはできますけど... from Kameyama Toyohisa From honjo @ murata.co.jp Tue Apr 27 14:43:47 2004 From: honjo @ murata.co.jp (Hisaki Honjo) Date: Tue, 27 Apr 2004 14:43:47 +0900 Subject: [SCore-users-jp] Re:メモリの解放について In-Reply-To: <20040427030807.818FC12894C@neal.il.is.s.u-tokyo.ac.jp> References: <200404271111.IGG92980.PKPOI@murata.co.jp> <20040427030807.818FC12894C@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <200404271443.GCF74455.OIPPK@murata.co.jp> 亀山様 すばやいレスありがとうございます。 > > 現在、ある程度大きなメモリを「一時的」に必要とするシステムを作成しています。 > > この、「一時的」なメモリは不要になったらすぐに解放しているのですが、 > > どうも、プロセスが終了するまで解放されていないような挙動を示します。 > > はい. > SCore では zerocopy 通信により他のプログラムの領域を読み書き > させないため確保した memory を開放しないようにしています. なるほど。 言われてみればあたりまえの事ですね。 > > ただし、1ノードのみの実行だと解放実行直後に > > ちゃんとメモリが解放されていることが確認されています。 > > つまり、複数台で並列化した場合のみ発生します。 > > 1 process の場合は通信を行わないので, この処理を行っていません. > > > 補足:システムはテスト段階のため、非力なPCを使用しています。 > >    そのため、一時領域を作成する時点で物理メモリが圧倒的に不足しており、 > >    殆どスワップメモリが使用されます。 > これは, 内部で > mallopt(M_TRIM_THRESHOLD, LONG_MAX); > にあたることを行っています. > M_TRIM_THRESHOLD で malloc で開放しないサイズの最大値を与えます. > zerocopy k通信を行わない (-mpi_zerocopy をつけない) のであれば > mallopt() を明示的に呼び出して開放するようにすることはできますけど... そうですか。 malloptを使ったりする小細工はあまりよくない気がするので、 なんとか仕組みを見直して、巨大メモリを消費しないように工夫したいと思います。 ありがとうございました。大変参考になりました。 今後ともよろしくお願いいたします。 ------------------------ 本庄 央樹(Honjo Hisaki) ------------------------ From Postmaster @ icrt.cu Wed Apr 28 00:46:51 2004 From: Postmaster @ icrt.cu (=?iso-2022-jp?b?UG9zdG1hc3RlciAbJEIhdxsoQiBpY3J0LmN1?=) Date: Tue, 27 Apr 2004 10:46:51 -0500 Subject: [SCore-users-jp] [SCore-users] MDaemon Warning - Virus Found Message-ID: The following message had attachment(s) which contained viruses: From Postmaster @ icrt.cu Wed Apr 28 00:46:51 2004 From: Postmaster @ icrt.cu (=?iso-2022-jp?b?UG9zdG1hc3RlciAbJEIhdxsoQiBpY3J0LmN1?=) Date: Tue, 27 Apr 2004 10:46:51 -0500 Subject: [SCore-users-jp] [SCore-users] MDaemon Warning - Virus Found Message-ID: The following message had attachment(s) which contained viruses: From hchen @ mdl.ipc.pku.edu.cn Wed Apr 28 08:09:21 2004 From: hchen @ mdl.ipc.pku.edu.cn (Chen Hao) Date: Wed, 28 Apr 2004 07:09:21 +0800 Subject: [SCore-users-jp] [SCore-users] ch_score2 Message-ID: <408EE821.9020306@mdl.ipc.pku.edu.cn> Hello all, the SCORE distribution only provided precompiled rpm package of mpich use ch_score device, Does anybody know where I can download precompiled rpm package of mpich use ch_score2 device? Chen Hao _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From kameyama @ pccluster.org Wed Apr 28 08:58:24 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Wed, 28 Apr 2004 08:58:24 +0900 Subject: [SCore-users-jp] Re: [SCore-users] ch_score2 In-Reply-To: Your message of "Wed, 28 Apr 2004 07:09:21 JST." <408EE821.9020306@mdl.ipc.pku.edu.cn> Message-ID: <20040427235258.ECE9612894C@neal.il.is.s.u-tokyo.ac.jp> In article <408EE821.9020306 @ mdl.ipc.pku.edu.cn> Chen Hao wrotes: > Hello all, the SCORE distribution only provided precompiled rpm > package of mpich use ch_score device, Does anybody know where I can > download precompiled rpm package of mpich use ch_score2 device? The ch_score2 device is not supported since SCore 4.1. Please see also following URL: http://www.pccluster.org/score/dist/score/html/en/release/new4-1.html So We don't provide the rpm for ch_score2. from Kameyama Toyohisa _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From yoshihiro551230 @ bc.wakwak.com Wed Apr 28 16:54:12 2004 From: yoshihiro551230 @ bc.wakwak.com (Yoshihiro ISHIKAWA) Date: Wed, 28 Apr 2004 16:54:12 +0900 Subject: [SCore-users-jp] pbs_momが起動できない Message-ID: <02a501c42cf5$fef168a0$6f501da0@airfoceone> メーリングリストの皆様 岩手大学の石川と申します. ソースコードからSCore-5.6.1をインストールし,正常に動作することが 確認できている状態で,SCore PBSの設定を行おうとしました. しかし,管理ガイドに記載されている内容と多少違うところがあったので メーリングリストの過去ログを参考に,計算ホストの設定を次のように しました. (1) #cp /opt/score/pbs/*/sbin/pbs_mom /etc/rc.d/init.d/ (2) /var/scored/pbs/mom_priv/configは次のように記述.     $logevent 0xff     $clienthost server.iwate-u.ac.jp そうすると, # /etc/rc.d/init.d/pbs_mom start Starting pbs_mom: [失敗] となってしまいます.どのようにすれば,pbs_momを正常に動作させる ことができるでしょうか? どなたかお分かりになる方がいらっしゃいましたらご教授お願い致します. ==================================== 岩手大学大学院工学研究科機械工学専攻 航空宇宙システム部門/船崎・山田研究室 修士課程2年 石川慶拓 Yoshihiro Ishikawa mail yoshihiro551230 @ bc.wakwak.com ==================================== From kameyama @ pccluster.org Wed Apr 28 17:12:55 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Wed, 28 Apr 2004 17:12:55 +0900 Subject: [SCore-users-jp] pbs_momが起動できない In-Reply-To: Your message of "Wed, 28 Apr 2004 16:54:12 JST." <02a501c42cf5$fef168a0$6f501da0@airfoceone> Message-ID: <20040428080729.4354A12894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <02a501c42cf5$fef168a0$6f501da0 @ airfoceone> "Yoshihiro ISHIKAWA" wrotes: > ソースコードからSCore-5.6.1をインストールし,正常に動作することが > 確認できている状態で,SCore PBSの設定を行おうとしました. > > しかし,管理ガイドに記載されている内容と多少違うところがあったので > メーリングリストの過去ログを参考に,計算ホストの設定を次のように > しました. > > (1) #cp /opt/score/pbs/*/sbin/pbs_mom /etc/rc.d/init.d/ /opt/score/install/*/pbs_mom ですよね. 動作結果から考えても... > (2) /var/scored/pbs/mom_priv/configは次のように記述. > >     $logevent 0xff >     $clienthost server.iwate-u.ac.jp > > そうすると, > > # /etc/rc.d/init.d/pbs_mom start > Starting pbs_mom: [失敗] # sh -vx /etc/rc.d/init.d/pbs_mom start の結果はどうなるでしょうか? /var/scored/pbs/mom_logs/* があったらその中身は何か書かれていませんでしょうか? from Kameyama Toyohisa From yoshihiro551230 @ bc.wakwak.com Wed Apr 28 17:26:14 2004 From: yoshihiro551230 @ bc.wakwak.com (Yoshihiro ISHIKAWA) Date: Wed, 28 Apr 2004 17:26:14 +0900 Subject: [SCore-users-jp] pbs_momが起動できない References: <20040428080729.4354A12894C@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <02b001c42cfa$78415450$6f501da0@airfoceone> This is a multi-part message in MIME format. ------=_NextPart_000_02AD_01C42D45.E7F4A5E0 Content-Type: text/plain; charset="iso-2022-jp" Content-Transfer-Encoding: 7bit 亀山様 岩手大学の石川です.先日は切なる対応ありがとうございました. > /opt/score/install/*/pbs_mom > ですよね. > 動作結果から考えても... すみません.これは記述ミスでした. > # sh -vx /etc/rc.d/init.d/pbs_mom start > の結果はどうなるでしょうか? 表示された結果をファイルで添付致します. pbs_momの起動にはやはり失敗しています. > /var/scored/pbs/mom_logs/* > があったらその中身は何か書かれていませんでしょうか? 残念ながら何もありませんでした. 何かお気づきの点がございましたら,よろしくお願い致します. ==================================== 岩手大学大学院工学研究科機械工学専攻 航空宇宙システム部門/船崎・山田研究室 修士課程2年 石川慶拓 Yoshihiro Ishikawa mail yoshihiro551230 @ bc.wakwak.com ==================================== ------=_NextPart_000_02AD_01C42D45.E7F4A5E0 Content-Type: text/plain; name="result.txt" Content-Transfer-Encoding: quoted-printable Content-Disposition: attachment; filename="result.txt" =83X=83N=83=8A=83v=83g=82=CD 2004=94N04=8C=8E28=93=FA = 17=8E=9E19=95=AA15=95b=0A= =82=C9=8AJ=8En=82=B5=82=DC=82=B5=82=BD[root @ cluster02 root]# sh -vx = /etc/rc.d/init.d/pbs_mom start #!/bin/sh # chkconfig: 345 98 01 # description: The pbs_mom is the PBS daemon which actually places the # job into execution for. # Source function library. . /etc/rc.d/init.d/functions + . /etc/rc.d/init.d/functions # -*-Shell-script-*- # # functions This file contains functions to be used by most or all # shell scripts in the /etc/init.d directory. # TEXTDOMAIN=3Dinitscripts ++ TEXTDOMAIN=3Dinitscripts # Make sure umask is sane umask 022 ++ umask 022 # Set up a default search path. PATH=3D"/sbin:/usr/sbin:/bin:/usr/bin:/usr/X11R6/bin" ++ PATH=3D/sbin:/usr/sbin:/bin:/usr/bin:/usr/X11R6/bin export PATH ++ export PATH # Get a sane screen width [ -z "${COLUMNS:-}" ] && COLUMNS=3D80 ++ '[' -z '' ']' ++ COLUMNS=3D80 [ -z "${CONSOLETYPE:-}" ] && CONSOLETYPE=3D"`/sbin/consoletype`" ++ '[' -z '' ']' /sbin/consoletype +++ /sbin/consoletype ++ CONSOLETYPE=3Dpty if [ -f /etc/sysconfig/i18n -a -z "${NOLOCALE:-}" ] ; then . /etc/sysconfig/i18n if [ "$CONSOLETYPE" !=3D "pty" ]; then case "${LANG:-}" in ja_JP*|ko_KR*|zh_CN*|zh_TW*) export LC_MESSAGES=3Den_US ;; *) export LANG ;; esac else export LANG fi fi ++ '[' -f /etc/sysconfig/i18n -a -z '' ']' ++ . /etc/sysconfig/i18n LANG=3D"ja_JP.eucJP" +++ LANG=3Dja_JP.eucJP SUPPORTED=3D"ja_JP.eucJP:ja_JP:ja" +++ SUPPORTED=3Dja_JP.eucJP:ja_JP:ja SYSFONT=3D"lat0-sun16" +++ SYSFONT=3Dlat0-sun16 SYSFONTACM=3D"8859-15" +++ SYSFONTACM=3D8859-15 ++ '[' pty '!=3D' pty ']' ++ export LANG # Read in our configuration if [ -z "${BOOTUP:-}" ]; then if [ -f /etc/sysconfig/init ]; then . /etc/sysconfig/init else # This all seem confusing? Look in /etc/sysconfig/init, # or in /usr/doc/initscripts-*/sysconfig.txt BOOTUP=3Dcolor RES_COL=3D60 MOVE_TO_COL=3D"echo -en \\033[${RES_COL}G" SETCOLOR_SUCCESS=3D"echo -en \\033[1;32m" SETCOLOR_FAILURE=3D"echo -en \\033[1;31m" SETCOLOR_WARNING=3D"echo -en \\033[1;33m" SETCOLOR_NORMAL=3D"echo -en \\033[0;39m" LOGLEVEL=3D1 fi if [ "$CONSOLETYPE" =3D "serial" ]; then BOOTUP=3Dserial MOVE_TO_COL=3D SETCOLOR_SUCCESS=3D SETCOLOR_FAILURE=3D SETCOLOR_WARNING=3D SETCOLOR_NORMAL=3D fi fi ++ '[' -z '' ']' ++ '[' -f /etc/sysconfig/init ']' ++ . /etc/sysconfig/init # color =3D> new RH6.0 bootup # verbose =3D> old-style bootup # anything else =3D> new style bootup without ANSI colors or positioning BOOTUP=3Dcolor +++ BOOTUP=3Dcolor # column to start "[ OK ]" label in=20 RES_COL=3D60 +++ RES_COL=3D60 # terminal sequence to move to that column. You could change this # to something like "tput hpa ${RES_COL}" if your terminal supports it MOVE_TO_COL=3D"echo -en \\033[${RES_COL}G" +++ MOVE_TO_COL=3Decho -en \033[60G # terminal sequence to set color to a 'success' color (currently: green) SETCOLOR_SUCCESS=3D"echo -en \\033[0;32m" +++ SETCOLOR_SUCCESS=3Decho -en \033[0;32m # terminal sequence to set color to a 'failure' color (currently: red) SETCOLOR_FAILURE=3D"echo -en \\033[0;31m" +++ SETCOLOR_FAILURE=3Decho -en \033[0;31m # terminal sequence to set color to a 'warning' color (currently: = yellow) SETCOLOR_WARNING=3D"echo -en \\033[0;33m" +++ SETCOLOR_WARNING=3Decho -en \033[0;33m # terminal sequence to reset to the default color. SETCOLOR_NORMAL=3D"echo -en \\033[0;39m" +++ SETCOLOR_NORMAL=3Decho -en \033[0;39m # default kernel loglevel on boot (syslog will reset this) LOGLEVEL=3D3 +++ LOGLEVEL=3D3 # Set to anything other than 'no' to allow hotkey interactive startup... PROMPT=3Dyes +++ PROMPT=3Dyes ++ '[' pty =3D serial ']' if [ "${BOOTUP:-}" !=3D "verbose" ]; then INITLOG_ARGS=3D"-q" else INITLOG_ARGS=3D fi ++ '[' color '!=3D' verbose ']' ++ INITLOG_ARGS=3D-q # Check if $pid (could be plural) are running checkpid() { local i for i in $* ; do [ -d "/proc/$i" ] || return 1 done return 0 } =09 # A function to start a program. daemon() { # Test syntax. local gotbase=3D force=3D local base=3D user=3D nice=3D bg=3D pid=3D nicelevel=3D0 while [ "$1" !=3D "${1##[-+]}" ]; do case $1 in '') echo $"$0: Usage: daemon [+/-nicelevel] {program}" return 1;; --check) base=3D$2 gotbase=3D"yes" shift 2 ;; --check=3D?*) base=3D${1#--check=3D} gotbase=3D"yes" shift ;; --user) user=3D$2 shift 2 ;; --user=3D?*) user=3D${1#--user=3D} shift ;; --force) force=3D"force" shift ;; [-+][0-9]*) nice=3D"nice -n $1" shift ;; *) echo $"$0: Usage: daemon [+/-nicelevel] {program}" return 1;; esac done # Save basename. [ -z "$gotbase" ] && base=3D${1##*/} # See if it's already running. Look *only* at the pid file. if [ -f /var/run/${base}.pid ]; then local line p read line < /var/run/${base}.pid for p in $line ; do [ -z "${p//[0-9]/}" -a -d "/proc/$p" ] && pid=3D"$pid $p" done fi =09 [ -n "${pid:-}" -a -z "${force:-}" ] && return # make sure it doesn't core dump anywhere; while this could mask # problems with the daemon, it also closes some security problems ulimit -S -c 0 >/dev/null 2>&1 =09 # if they set NICELEVEL in /etc/sysconfig/foo, honor it [ -n "$NICELEVEL" ] && nice=3D"nice -n $NICELEVEL" =09 # Echo daemon [ "${BOOTUP:-}" =3D "verbose" -a -z "$LSB" ] && echo -n " $base" # And start it up. if [ -z "$user" ]; then $nice initlog $INITLOG_ARGS -c "$*" else $nice initlog $INITLOG_ARGS -c "su -s /bin/bash - $user -c \"$*\"" fi [ "$?" -eq 0 ] && success $"$base startup" || failure $"$base startup" } # A function to stop a program. killproc() { RC=3D0 # Test syntax. if [ "$#" -eq 0 ]; then echo $"Usage: killproc {program} [signal]" return 1 fi notset=3D0 # check for second arg to be kill level if [ -n "$2" ]; then killlevel=3D$2 else notset=3D1 killlevel=3D"-9" fi # Save basename. base=3D${1##*/} # Find pid. pid=3D if [ -f /var/run/${base}.pid ]; then local line p read line < /var/run/${base}.pid for p in $line ; do [ -z "${p//[0-9]/}" -a -d "/proc/$p" ] && pid=3D"$pid $p" done fi if [ -z "$pid" ]; then pid=3D`pidof -o $$ -o $PPID -o %PPID -x $1 || \ pidof -o $$ -o $PPID -o %PPID -x $base` fi # Kill it. if [ -n "${pid:-}" ] ; then [ "$BOOTUP" =3D "verbose" -a -z "$LSB" ] && echo -n = "$base " if [ "$notset" -eq "1" ] ; then if checkpid $pid 2>&1; then # TERM first, then KILL if not dead kill -TERM $pid usleep 100000 if checkpid $pid && sleep 1 && checkpid $pid && sleep 3 && checkpid $pid ; then kill -KILL $pid usleep 100000 fi fi checkpid $pid RC=3D$? [ "$RC" -eq 0 ] && failure $"$base shutdown" || success $"$base = shutdown" RC=3D$((! $RC)) # use specified level only else if checkpid $pid; then kill $killlevel $pid RC=3D$? [ "$RC" -eq 0 ] && success $"$base $killlevel" || failure $"$base = $killlevel" fi fi else failure $"$base shutdown" RC=3D1 fi # Remove pid file if any. if [ "$notset" =3D "1" ]; then rm -f /var/run/$base.pid fi return $RC } # A function to find the pid of a program. Looks *only* at the pidfile pidfileofproc() { local base=3D${1##*/} =09 # Test syntax. if [ "$#" =3D 0 ] ; then echo $"Usage: pidfileofproc {program}" return 1 fi # First try "/var/run/*.pid" files if [ -f /var/run/$base.pid ] ; then local line p pid=3D read line < /var/run/$base.pid for p in $line ; do [ -z "${p//[0-9]/}" -a -d /proc/$p ] && pid=3D"$pid $p" done if [ -n "$pid" ]; then echo $pid return 0 fi fi } # A function to find the pid of a program. pidofproc() { base=3D${1##*/} # Test syntax. if [ "$#" =3D 0 ]; then echo $"Usage: pidofproc {program}" return 1 fi # First try "/var/run/*.pid" files if [ -f /var/run/$base.pid ]; then local line p pid=3D read line < /var/run/$base.pid for p in $line ; do [ -z "${p//[0-9]/}" -a -d /proc/$p ] && pid=3D"$pid $p" done if [ -n "$pid" ]; then echo $pid return 0 fi fi pidof -o $$ -o $PPID -o %PPID -x $1 || \ pidof -o $$ -o $PPID -o %PPID -x $base } status() { local base=3D${1##*/} local pid # Test syntax. if [ "$#" =3D 0 ] ; then echo $"Usage: status {program}" return 1 fi # First try "pidof" pid=3D`pidof -o $$ -o $PPID -o %PPID -x $1 || \ pidof -o $$ -o $PPID -o %PPID -x ${base}` if [ -n "$pid" ]; then echo $"${base} (pid $pid) is running..." return 0 fi # Next try "/var/run/*.pid" files if [ -f /var/run/${base}.pid ] ; then read pid < /var/run/${base}.pid if [ -n "$pid" ]; then echo $"${base} dead but pid file exists" return 1 fi fi # See if /var/lock/subsys/${base} exists if [ -f /var/lock/subsys/${base} ]; then echo $"${base} dead but subsys locked" return 2 fi echo $"${base} is stopped" return 3 } echo_success() { [ "$BOOTUP" =3D "color" ] && $MOVE_TO_COL echo -n "[ " [ "$BOOTUP" =3D "color" ] && $SETCOLOR_SUCCESS echo -n $"OK" [ "$BOOTUP" =3D "color" ] && $SETCOLOR_NORMAL echo -n " ]" echo -ne "\r" if [ "$BOOTUP" =3D "graphical" -a -x /usr/bin/rhgb-client ]; then /usr/bin/rhgb-client -ping fi return 0 } echo_failure() { [ "$BOOTUP" =3D "color" ] && $MOVE_TO_COL echo -n "[" [ "$BOOTUP" =3D "color" ] && $SETCOLOR_FAILURE echo -n $"FAILED" [ "$BOOTUP" =3D "color" ] && $SETCOLOR_NORMAL echo -n "]" echo -ne "\r" if [ "$BOOTUP" =3D "graphical" -a -x /usr/bin/rhgb-client ]; then /usr/bin/rhgb-client -ping fi return 1 } echo_passed() { [ "$BOOTUP" =3D "color" ] && $MOVE_TO_COL echo -n "[" [ "$BOOTUP" =3D "color" ] && $SETCOLOR_WARNING echo -n $"PASSED" [ "$BOOTUP" =3D "color" ] && $SETCOLOR_NORMAL echo -n "]" echo -ne "\r" if [ "$BOOTUP" =3D "graphical" -a -x /usr/bin/rhgb-client ]; then /usr/bin/rhgb-client -ping fi return 1 } echo_warning() { [ "$BOOTUP" =3D "color" ] && $MOVE_TO_COL echo -n "[" [ "$BOOTUP" =3D "color" ] && $SETCOLOR_WARNING echo -n $"WARNING" [ "$BOOTUP" =3D "color" ] && $SETCOLOR_NORMAL echo -n "]" echo -ne "\r" if [ "$BOOTUP" =3D "graphical" -a -x /usr/bin/rhgb-client ]; then /usr/bin/rhgb-client -ping fi return 1 } # Log that something succeeded success() { if [ -z "${IN_INITLOG:-}" ]; then initlog $INITLOG_ARGS -n $0 -s "$1" -e 1 else # silly hack to avoid EPIPE killing rc.sysinit trap "" SIGPIPE echo "$INITLOG_ARGS -n $0 -s \"$1\" -e 1" >&21 trap - SIGPIPE fi [ "$BOOTUP" !=3D "verbose" -a -z "$LSB" ] && echo_success return 0 } # Log that something failed failure() { rc=3D$? if [ -z "${IN_INITLOG:-}" ]; then initlog $INITLOG_ARGS -n $0 -s "$1" -e 2 else trap "" SIGPIPE echo "$INITLOG_ARGS -n $0 -s \"$1\" -e 2" >&21 trap - SIGPIPE fi [ "$BOOTUP" !=3D "verbose" -a -z "$LSB" ] && echo_failure return $rc } # Log that something passed, but may have had errors. Useful for fsck passed() { rc=3D$? if [ -z "${IN_INITLOG:-}" ]; then initlog $INITLOG_ARGS -n $0 -s "$1" -e 1 else trap "" SIGPIPE echo "$INITLOG_ARGS -n $0 -s \"$1\" -e 1" >&21 trap - SIGPIPE fi [ "$BOOTUP" !=3D "verbose" -a -z "$LSB" ] && echo_passed return $rc } =20 # Log a warning warning() { rc=3D$? if [ -z "${IN_INITLOG:-}" ]; then initlog $INITLOG_ARGS -n $0 -s "$1" -e 1 else trap "" SIGPIPE echo "$INITLOG_ARGS -n $0 -s \"$1\" -e 1" >&21 trap - SIGPIPE fi [ "$BOOTUP" !=3D "verbose" -a -z "$LSB" ] && echo_warning return $rc } =20 # Run some action. Log its output. action() { STRING=3D$1 echo -n "$STRING " shift initlog $INITLOG_ARGS -c "$*" && success $"$STRING" || failure = $"$STRING" rc=3D$? echo return $rc } # returns OK if $1 contains $2 strstr() { #case "$1" in # *${2}*) return 0 ;; #esac #return 1 [ "$1" =3D "$2" ] && return 0 slice=3D${1#*$2*} [ "$slice" =3D "$1" ] && return 1 return 0 } # Confirm whether we really want to run this service confirm() { local YES=3D$"yY" local NO=3D$"nN" local CONT=3D$"cC" =20 while : ; do=20 echo -n $"Start service $1 (Y)es/(N)o/(C)ontinue? [Y] " read answer if strstr "$YES" "$answer" || [ "$answer" =3D "" ] ; then return 0 elif strstr "$CONT" "$answer" ; then return 2 elif strstr "$NO" "$answer" ; then return 1 fi done } # Source networking configuration. if [ ! -f /etc/sysconfig/network ]; then exit 0 fi + '[' '!' -f /etc/sysconfig/network ']' . /etc/sysconfig/network + . /etc/sysconfig/network NETWORKING=3Dyes ++ NETWORKING=3Dyes HOSTNAME=3Dcluster02.iwate-u.ac.jp ++ HOSTNAME=3Dcluster02.iwate-u.ac.jp # Check that networking is up. [ ${NETWORKING} =3D "no" ] && exit 0 + '[' yes =3D no ']' SBINDIR=3D/opt/score/deploy + SBINDIR=3D/opt/score/deploy PBS_HOME=3D/var/scored/pbs + PBS_HOME=3D/var/scored/pbs [ -f $SBINDIR/pbs_mom ] || exit 0 + '[' -f /opt/score/deploy/pbs_mom ']' RETVAL=3D0 + RETVAL=3D0 # See how we were called. case "$1" in start) echo -n "Starting pbs_mom: " daemon $SBINDIR/pbs_mom RETVAL=3D$? [ $RETVAL -eq 0 ] && touch /var/lock/subsys/pbs_mom echo ;; stop) echo -n "Shutting down pbs_mom: " killproc pbs_mom RETVAL=3D$? [ $RETVAL -eq 0 ] && rm -f /var/lock/subsys/pbs_mom echo ;; status) pidofproc pbs_mom RETVAL=3D$? ;; restart) $0 stop $0 start RETVAL=3D$? ;; *) echo "Usage: pbs_mopm {start|stop|status|restart}" exit 1 esac + echo -n 'Starting pbs_mom: ' Starting pbs_mom: + daemon /opt/score/deploy/pbs_mom + local gotbase=3D force=3D + local base=3D user=3D nice=3D bg=3D pid=3D + nicelevel=3D0 + '[' /opt/score/deploy/pbs_mom '!=3D' /opt/score/deploy/pbs_mom ']' + '[' -z '' ']' + base=3Dpbs_mom + '[' -f /var/run/pbs_mom.pid ']' + '[' -n '' -a -z '' ']' + ulimit -S -c 0 + '[' -n '' ']' + '[' color =3D verbose -a -z '' ']' + '[' -z '' ']' + initlog -q -c /opt/score/deploy/pbs_mom + '[' 3 -eq 0 ']' + failure $'pbs_mom\265\257\306\260' + rc=3D1 + '[' -z '' ']' + initlog -q -n /etc/rc.d/init.d/pbs_mom -s $'pbs_mom\265\257\306\260' = -e 2 + '[' color '!=3D' verbose -a -z '' ']' + echo_failure + '[' color =3D color ']' + echo -en '\033[60G' =1B[60G+ echo -n '[' [+ '[' color =3D color ']' + echo -en '\033[0;31m' =1B[0;31m+ echo -n $'\274\272\307\324' =8E=B8=94s+ '[' color =3D color ']' + echo -en '\033[0;39m' =1B[0;39m+ echo -n ']' ]+ echo -ne '\r' =0D+ '[' color =3D graphical -a -x /usr/bin/rhgb-client ']' + return 1 + return 1 + RETVAL=3D1 + '[' 1 -eq 0 ']' + echo exit $RETVAL + exit 1 [root @ cluster02 root]# exit=0A= =83X=83N=83=8A=83v=83g=82=CD 2004=94N04=8C=8E28=93=FA = 17=8E=9E19=95=AA32=95b=0A= =82=C9=8FI=97=B9=82=B5=82=DC=82=B5=82=BD ------=_NextPart_000_02AD_01C42D45.E7F4A5E0-- From kameyama @ pccluster.org Wed Apr 28 17:51:59 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Wed, 28 Apr 2004 17:51:59 +0900 Subject: [SCore-users-jp] pbs_momが起動できない In-Reply-To: Your message of "Wed, 28 Apr 2004 17:26:14 JST." <02b001c42cfa$78415450$6f501da0@airfoceone> Message-ID: <20040428084632.86A7012894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <02b001c42cfa$78415450$6f501da0 @ airfoceone> "Yoshihiro ISHIKAWA" wrotes: > > # sh -vx /etc/rc.d/init.d/pbs_mom start > > の結果はどうなるでしょうか? > > 表示された結果をファイルで添付致します. > pbs_momの起動にはやはり失敗しています. 一応, 起動はしようとしているみたいですね. 直接 # /opt/score/deploy/pbs_mom ではどうなるでしょうか? うまくいくとなんにも言わないで終了して ps でみると pbs_mom が走っている状態になるのですが... from Kameyama Toyohisa From yoshihiro551230 @ bc.wakwak.com Wed Apr 28 17:59:37 2004 From: yoshihiro551230 @ bc.wakwak.com (Yoshihiro ISHIKAWA) Date: Wed, 28 Apr 2004 17:59:37 +0900 Subject: [SCore-users-jp] pbs_momが起動できない References: <20040428084632.86A7012894C@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <02be01c42cff$22a38180$6f501da0@airfoceone> 亀山様 岩手大学の石川です.度々ありがとうございます. 直接実行してみたところ, # cd /opt/score/deploy # ./pbs_mom pbs_mom: No such file or directory (2) in chk_file_sec, Security violation with "/var/scored/pbs/mom_priv/jobs" pbs_mom: No such file or directory (2) in chk_file_sec, Security violation with "/var/scored/pbs/spool/" pbs_mom: No such file or directory (2) in chk_file_sec, Security violation with "/var/scored/pbs/pbs_environment" となります. ==================================== 岩手大学大学院工学研究科機械工学専攻 航空宇宙システム部門/船崎・山田研究室 修士課程2年 石川慶拓 Yoshihiro Ishikawa mail yoshihiro551230 @ bc.wakwak.com ==================================== From kameyama @ pccluster.org Wed Apr 28 18:07:54 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Wed, 28 Apr 2004 18:07:54 +0900 Subject: [SCore-users-jp] pbs_momが起動できない In-Reply-To: Your message of "Wed, 28 Apr 2004 17:59:37 JST." <02be01c42cff$22a38180$6f501da0@airfoceone> Message-ID: <20040428090228.3C64E12894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <02be01c42cff$22a38180$6f501da0 @ airfoceone> "Yoshihiro ISHIKAWA" wrotes: > 直接実行してみたところ, > > # cd /opt/score/deploy > # ./pbs_mom > pbs_mom: No such file or directory (2) in chk_file_sec, Security violation > with > "/var/scored/pbs/mom_priv/jobs" > pbs_mom: No such file or directory (2) in chk_file_sec, Security violation > with > "/var/scored/pbs/spool/" > pbs_mom: No such file or directory (2) in chk_file_sec, Security violation > with > "/var/scored/pbs/pbs_environment" > > となります. 必要な directory ができていないようです. server から /opt/score/install をコピーして # cd /opt/score/install # ./setup -pbs_comp を実行してください. from Kameyama Toyohisa From yoshihiro551230 @ bc.wakwak.com Wed Apr 28 18:40:10 2004 From: yoshihiro551230 @ bc.wakwak.com (Yoshihiro ISHIKAWA) Date: Wed, 28 Apr 2004 18:40:10 +0900 Subject: [SCore-users-jp] pbs_momが起動できない Message-ID: <02d501c42d04$cc61d820$6f501da0@airfoceone> 亀山様 岩手大学の石川です.ご返答ありがとうございました. #/opt/score/install/setup -pbs_comp でpbs_momが動作するようになりました. http://www.pccluster.org/score/dist/score/html/ja/installation/sys-compute-fromsrc.html には, # cd /opt/score/install # ./setup -score_comp -pbs_common とありますが,-pbs_commonのところは-pbs_compの間違い なのでしょうか? いずれにしても,早急に解決できたことに非常に感謝 しております.今後ともよろしくお願いいたします. ==================================== 岩手大学大学院工学研究科機械工学専攻 航空宇宙システム部門/船崎・山田研究室 修士課程2年 石川慶拓 Yoshihiro Ishikawa mail yoshihiro551230 @ bc.wakwak.com ==================================== From kameyama @ pccluster.org Wed Apr 28 18:58:29 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Wed, 28 Apr 2004 18:58:29 +0900 Subject: [SCore-users-jp] pbs_momが起動できない In-Reply-To: Your message of "Wed, 28 Apr 2004 18:40:10 JST." <02d501c42d04$cc61d820$6f501da0@airfoceone> Message-ID: <20040428095302.49FC312894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <02d501c42d04$cc61d820$6f501da0 @ airfoceone> "Yoshihiro ISHIKAWA" wrotes: > > http://www.pccluster.org/score/dist/score/html/ja/installation/sys-compute-fr > omsrc.html > > には, > > # cd /opt/score/install > # ./setup -score_comp -pbs_common > > とありますが,-pbs_commonのところは-pbs_compの間違い > なのでしょうか? すみません. 間違いでした. from Kameyama Toyohisa From hchen @ mdl.ipc.pku.edu.cn Wed Apr 28 21:50:12 2004 From: hchen @ mdl.ipc.pku.edu.cn (Chen Hao) Date: Wed, 28 Apr 2004 20:50:12 +0800 Subject: [SCore-users-jp] [SCore-users] Something strange in PM/Ethernet Network Trunking Message-ID: <408FA884.2020508@mdl.ipc.pku.edu.cn> Hello all, I used PMB 2.2.1 to measure SCORE/MPI performance and found something string. When I used two 3C905B NICs, I got the results of PingPong and Pingping as following: #--------------------------------------------------- # Benchmarking PingPong # ( #processes = 2 ) # ( 14 additional processes waiting in MPI_Barrier) #--------------------------------------------------- #bytes #repetitions t[usec] Mbytes/sec 0 1000 49.13 0.00 1 1000 49.89 0.02 2 1000 50.40 0.04 4 1000 50.54 0.08 8 1000 50.86 0.15 16 1000 52.92 0.29 32 1000 56.37 0.54 64 1000 62.83 0.97 128 1000 75.88 1.61 256 1000 98.53 2.48 512 1000 151.50 3.22 1024 1000 247.95 3.94 2048 1000 347.78 5.62 4096 1000 463.81 8.42 8192 1000 594.80 13.13 16384 1000 1056.45 14.79 32768 1000 1754.30 17.81 65536 640 3122.35 20.02 131072 320 5992.52 20.86 262144 160 11469.87 21.80 524288 80 22598.54 22.13 1048576 40 44952.29 22.25 2097152 20 89360.53 22.38 4194304 10 178679.39 22.39 #--------------------------------------------------- # Benchmarking PingPing # ( #processes = 2 ) # ( 14 additional processes waiting in MPI_Barrier) #--------------------------------------------------- #bytes #repetitions t[usec] Mbytes/sec 0 1000 55.40 0.00 1 1000 54.75 0.02 2 1000 52.09 0.04 4 1000 55.12 0.07 8 1000 53.07 0.14 16 1000 58.13 0.26 32 1000 57.33 0.53 64 1000 67.17 0.91 128 1000 79.80 1.53 256 1000 98.88 2.47 512 1000 164.32 2.97 1024 1000 252.47 3.87 2048 1000 1901.03 1.03 4096 1000 3520.96 1.11 8192 1000 2870.28 2.72 16384 1000 10062.60 1.55 32768 1000 10718.80 2.92 65536 640 20858.36 3.00 131072 320 26830.07 4.66 262144 160 39868.81 6.27 524288 80 62836.03 7.96 1048576 40 108759.45 9.19 2097152 20 194836.70 10.27 4194304 10 379412.10 10.54 we could see that pingpong's bandwidth is very poor when packet is from 2KB to 64KB, what's the matter? ChenHao _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From jucky @ fmg.freeserve.ne.jp Thu Apr 29 18:52:34 2004 From: jucky @ fmg.freeserve.ne.jp (=?iso-2022-jp?b?anVja3kgGyRCIXcbKEIgZm1nLmZyZWVzZXJ2ZS5uZS5qcA==?=) Date: Thu, 29 Apr 2004 18:52:34 +0900 Subject: [SCore-users-jp] [SCore-users] Special Choice Message-ID: 20040429171404 The wonderful site was found when carrying out netsurfing. To a beautiful movie site, a quality is also high. http://www.xmax.info Do you visit at once and see? _______________________________________________ SCore-users mailing list SCore-users @ pccluster.org http://www.pccluster.org/mailman/listinfo/score-users From yoshihiro551230 @ bc.wakwak.com Thu Apr 29 22:09:41 2004 From: yoshihiro551230 @ bc.wakwak.com (Yoshihiro ISHIKAWA) Date: Thu, 29 Apr 2004 22:09:41 +0900 Subject: [SCore-users-jp] クラスタの使用状況の確認方法 Message-ID: <031401c42deb$3c0c2590$6f501da0@airfoceone> メーリングリストの皆様 岩手大学の石川と申します.いつもお世話になっております. SCoreをマルチユーザ環境で使用する場合に,クラスタの使用状況を 一般ユーザが確認する方法はあるでしょうか? 使用可能なCPUの数と使用されているCPUの数,誰がいくつ使用している かがわかれば良いのですが,良い方法がありましたらご教授よろしく お願い致します. ==================================== 岩手大学大学院工学研究科機械工学専攻 航空宇宙システム部門/船崎・山田研究室 修士課程2年 石川慶拓 Yoshihiro Ishikawa mail yoshihiro551230 @ bc.wakwak.com ==================================== From yoshihiro551230 @ bc.wakwak.com Fri Apr 30 08:41:52 2004 From: yoshihiro551230 @ bc.wakwak.com (Yoshihiro ISHIKAWA) Date: Fri, 30 Apr 2004 08:41:52 +0900 Subject: [SCore-users-jp] マルチユーザ環境でのパッチ処理 Message-ID: <033301c42e43$8ca11530$6f501da0@airfoceone> メーリングリストの皆様 岩手大学の石川と申します.いつもお世話になっております. さて,メーリングリストの過去ログ http://www.pccluster.org/pipermail/score-users-jp/2003-September/001650.html によると,マルチユーザモードでPBSは使用できないとのことですが, マルチユーザモードでバッチ処理を行う方法はあるでしょうか? どなたかご存じの方がおりましたら,ご教授お願い致します. ==================================== 岩手大学大学院工学研究科機械工学専攻 航空宇宙システム部門/船崎・山田研究室 修士課程2年 石川慶拓 Yoshihiro Ishikawa mail yoshihiro551230 @ bc.wakwak.com ==================================== From kameyama @ pccluster.org Fri Apr 30 09:30:43 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Fri, 30 Apr 2004 09:30:43 +0900 Subject: [SCore-users-jp] クラスタの使用状況の確認方法 In-Reply-To: Your message of "Thu, 29 Apr 2004 22:09:41 JST." <031401c42deb$3c0c2590$6f501da0@airfoceone> Message-ID: <20040430002511.6CA0312894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <031401c42deb$3c0c2590$6f501da0 @ airfoceone> "Yoshihiro ISHIKAWA" wrotes: > SCoreをマルチユーザ環境で使用する場合に,クラスタの使用状況を > 一般ユーザが確認する方法はあるでしょうか? > > 使用可能なCPUの数と使用されているCPUの数,誰がいくつ使用している > かがわかれば良いのですが,良い方法がありましたらご教授よろしく > お願い致します. sctop というコマンドを使用することができると思います. SCore-D をモニタする http://www.pccluster.org/score/dist/score/html/ja/reference/scored/scbcast.html というドキュメントにしたがって scored を起動することによって使用可能になります. (通常のインストール方法ならば, scbcast は server host で動いていると 思います.) user は sctop http://www.pccluster.org/score/dist/score/html/ja/man/man1/sctop.html を起動することによって, 情報を知ることができます. SCore-D の割り当て単位がホストになっていますので, host ごとに動いている job の数になりますが... from Kameyama Toyohisa From kameyama @ pccluster.org Fri Apr 30 09:38:18 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Fri, 30 Apr 2004 09:38:18 +0900 Subject: [SCore-users-jp] マルチユーザ環境でのパッチ処理 In-Reply-To: Your message of "Fri, 30 Apr 2004 08:41:52 JST." <033301c42e43$8ca11530$6f501da0@airfoceone> Message-ID: <20040430003246.BCE0D12894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <033301c42e43$8ca11530$6f501da0 @ airfoceone> "Yoshihiro ISHIKAWA" wrotes: > http://www.pccluster.org/pipermail/score-users-jp/2003-September/001650.html > > によると,マルチユーザモードでPBSは使用できないとのことですが, > マルチユーザモードでバッチ処理を行う方法はあるでしょうか? 使用したことはありませんが, 寄贈パッケージ http://www.pccluster.org/score/dist/score/html/ja/installation/contrib.html の SGE/SCore がマルチユーザモードに対応しているようです. from Kameyama Toyohisa From yoshihiro551230 @ bc.wakwak.com Fri Apr 30 12:37:17 2004 From: yoshihiro551230 @ bc.wakwak.com (Yoshihiro ISHIKAWA) Date: Fri, 30 Apr 2004 12:37:17 +0900 Subject: [SCore-users-jp] クラスタの使用状況の確認方法 References: <20040430002511.6CA0312894C@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <035501c42e64$6f946520$6f501da0@airfoceone> 亀山様 岩手大学の石川です.ご返答ありがとうございました. 早速試してみたいと思います. ==================================== 岩手大学大学院工学研究科機械工学専攻 航空宇宙システム部門/船崎・山田研究室 修士課程2年 石川慶拓 Yoshihiro Ishikawa mail yoshihiro551230 @ bc.wakwak.com ==================================== From yoshihiro551230 @ bc.wakwak.com Fri Apr 30 12:39:38 2004 From: yoshihiro551230 @ bc.wakwak.com (Yoshihiro ISHIKAWA) Date: Fri, 30 Apr 2004 12:39:38 +0900 Subject: [SCore-users-jp] マルチユーザ環境でのパッチ処理 References: <20040430003246.BCE0D12894C@neal.il.is.s.u-tokyo.ac.jp> Message-ID: <035b01c42e64$c3bbf960$6f501da0@airfoceone> 亀山様 岩手大学の石川です.ご返答ありがとうございました. 早速,使用してみたいと思います. ==================================== 岩手大学大学院工学研究科機械工学専攻 航空宇宙システム部門/船崎・山田研究室 修士課程2年 石川慶拓 Yoshihiro Ishikawa mail yoshihiro551230 @ bc.wakwak.com ==================================== From yoshihiro551230 @ bc.wakwak.com Fri Apr 30 18:58:42 2004 From: yoshihiro551230 @ bc.wakwak.com (Yoshihiro ISHIKAWA) Date: Fri, 30 Apr 2004 18:58:42 +0900 Subject: [SCore-users-jp] SGE/SCoreのmakeエラー Message-ID: <03ab01c42e99$b82ae770$6f501da0@airfoceone> メーリングリストの皆様 岩手大学の石川と申します.いつもお世話になっております. SGE/SCoreをmakeしたところ,下記のようなエラーが出てmakeできませんでした. どなたか解決方法をご存じの方がいらっしゃいましたら,ご教授頂けないでしょうか ? gcc -o rsh rsh.o -L. -lm gcc -O2 -Wall -Werror -DLINUX -DLINUX6 -DENABLE_214_FIX -DENABLE_438_FIX -DCO MPILE_DC -D__SGE_COMPILE_WITH_GETTEXT__ -D__SGE_NO_USERMAPPING__ -UKERBEROS -I. ./../../daemons/common -I../../../common -I../../../libs/uti -c ../rshd.c cc1: warnings being treated as errors ../rshd.c:108: warning: redefinition of `in_port_t' /usr/include/netinet/in.h:91: warning: `in_port_t' previously declared here make: *** [rshd.o] Error 1 not done ==================================== 岩手大学大学院工学研究科機械工学専攻 航空宇宙システム部門/船崎・山田研究室 修士課程2年 石川慶拓 Yoshihiro Ishikawa mail yoshihiro551230 @ bc.wakwak.com ==================================== From kameyama @ pccluster.org Fri Apr 30 19:30:45 2004 From: kameyama @ pccluster.org (=?iso-2022-jp?b?a2FtZXlhbWEgGyRCIXcbKEIgcGNjbHVzdGVyLm9yZw==?=) Date: Fri, 30 Apr 2004 19:30:45 +0900 Subject: [SCore-users-jp] SGE/SCoreのmake エラー In-Reply-To: Your message of "Fri, 30 Apr 2004 18:58:42 JST." <03ab01c42e99$b82ae770$6f501da0@airfoceone> Message-ID: <20040430102511.B105012894C@neal.il.is.s.u-tokyo.ac.jp> 亀山です. In article <03ab01c42e99$b82ae770$6f501da0 @ airfoceone> "Yoshihiro ISHIKAWA" wrotes: > SGE/SCoreをmakeしたところ,下記のようなエラーが出てmakeできませんでした. > どなたか解決方法をご存じの方がいらっしゃいましたら,ご教授頂けないでしょうか > ? > > gcc -o rsh rsh.o -L. -lm > gcc -O2 -Wall -Werror -DLINUX -DLINUX6 -DENABLE_214_FIX -DENABLE_438_FIX > -DCO > MPILE_DC -D__SGE_COMPILE_WITH_GETTEXT__ -D__SGE_NO_USERMAPPING__ -UKERBEROS > -I. > ./../../daemons/common -I../../../common -I../../../libs/uti -c ../rshd.c > cc1: warnings being treated as errors > ../rshd.c:108: warning: redefinition of `in_port_t' > /usr/include/netinet/in.h:91: warning: `in_port_t' previously declared here > make: *** [rshd.o] Error 1 > not done とりあえず, そこは aimk の中の strings /lib/libc.so.6 | grep "GNU C Library" | grep 2.2 >& /dev/null を strings /lib/libc.so.6 | grep "GNU C Library" | grep 2.3 >& /dev/null に変更すればコンパイルできると思います. from Kameyama Toyohisa