From ri007073 @ ed.ritsumei.ac.jp Wed Sep 14 20:11:15 2011 From: ri007073 @ ed.ritsumei.ac.jp (NISHIKAWA RIYO) Date: Wed, 14 Sep 2011 20:11:15 +0900 (JST) Subject: [SCore-users-jp] =?iso-2022-jp?b?c2NvcmVob3N0cy5kYhskQiRONS0bKEI=?= =?iso-2022-jp?b?GyRCPVIbKEI=?= Message-ID: <1315998675.24937.ri007073@ed.ritsumei.ac.jp> 立命館大学の西川と申します。 お世話になります。 現在既存のPCクラスタを破棄し、 CentOS5.5、SCORE7.0.1を使用して 新しくPCクラスタを構成しております。 お聞きしたい点はscorehosts.dbのnode記述のしかたです。 SCORE7になり、記述法が変わったので 既存のものが流用できなくなりました。 SCORE6.0.2にて使用していたscorehosts.dbを 添付させていただくので、ご教授ください。 具体的にはPM/SHMEMの記述法と define部でnode記述を行うのかがわかりません。 scorer scorehosts.dbを実行し、sampleも参考にしましたが わかりませんでした。 よろしくお願いいたします。 西川 諒 立命館大学 高性能計算研究室 ri007073 @ ed.ritsumei.ac.jp -------------- next part -------------- 文字コード指定の無い添付文書を保管しました... 名前: scorehosts.db URL: From kameyama @ riken.jp Thu Sep 15 10:47:50 2011 From: kameyama @ riken.jp (Kameyama Toyohisa) Date: Thu, 15 Sep 2011 10:47:50 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?c2NvcmVob3N0cy5kYhskQiRONS0bKEI=?= =?iso-2022-jp?b?GyRCPVIbKEI=?= In-Reply-To: <1315998675.24937.ri007073@ed.ritsumei.ac.jp> References: <1315998675.24937.ri007073@ed.ritsumei.ac.jp> Message-ID: <4E715946.8060003@riken.jp> 亀山です. (2011年09月14日 20:11), NISHIKAWA RIYO wrote: > お聞きしたい点はscorehosts.dbのnode記述のしかたです。 > SCORE7になり、記述法が変わったので > 既存のものが流用できなくなりました。 > SCORE6.0.2にて使用していたscorehosts.dbを > 添付させていただくので、ご教授ください。 > 具体的にはPM/SHMEMの記述法と > define部でnode記述を行うのかがわかりません。 shmem に関しては記述が不要になりました. ethernet の config file も不要です. ethernet も単純に eth0 を普通に使用する場合は network の指定も不要です. smp に関しては socket 数と core 数を書くようになりました. # group を使用しないで, eth0 のみ使用する場合は scorehosts.db # 自体が不要という話も... 添付ファイルの例では以下になると思います. (CPU は quad core Xeon 2 socket と仮定しました. #define PCCethernet cpugen=xeonquad2 socks=2 cores=8 speed=3000 \ msgbserv=bront2.hpc.se.ritsumei.ac.jp:8764 group=pcc network=ethernet nycto00.hpc.cs.ritsumei.ac.jp PCCethernet nycto01.hpc.cs.ritsumei.ac.jp PCCethernet Kameyama Toyohisa From kameyama @ riken.jp Thu Sep 15 18:21:59 2011 From: kameyama @ riken.jp (Kameyama Toyohisa) Date: Thu, 15 Sep 2011 18:21:59 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?c2NvcmVob3N0cy5kYhskQiRONS0bKEI=?= =?iso-2022-jp?b?GyRCPVIbKEI=?= In-Reply-To: <1316076969.9977.ri007073@ed.ritsumei.ac.jp> References: <1315998675.24937.ri007073@ed.ritsumei.ac.jp> <4E715946.8060003@riken.jp> <1316076969.9977.ri007073@ed.ritsumei.ac.jp> Message-ID: <4E71C3B7.7080107@riken.jp> 亀山です. (2011年09月15日 17:56), NISHIKAWA RIYO wrote: > 迅速なお返事誠に感謝いたします。 > お返事に記述してあった通り、scorehost.dbを > 記述し、SCOUTテストを行ったのですが、 > 以下のようなエラーが出ました。 > どのような原因が考えられるでしょうか? > > [root @ bront2 ~]# scout -g pcc > root @ nycto00.hpc.cs.ritsumei.ac.jp's password: > WINDUP.EXE @ nycto00#5747:WARNING: connect_host() at windup.c:217: bront2.hpc.se.ritsumei.ac.jp:54533: Operation not permitted nycto00 から bront2 へ 54533 の port で connect(2) しようとして 権限が無くて拒否されているようですね. selinux を有効にしていませんでしょうか? (firewall の設定をしている場合は違ったメッセージになりますし...) > ちなみに記述が不要になったethernet の config fileには > eth2の使用を記述していました。 > そちらとは関係あるでしょうか? こっちは scout が動いた後の問題です. 多分 ethernet netdev=eth2 を scorehosts.db に追加すれば良いと思いますが... Kameyama Toyohisa From kameyama @ pccluster.org Thu Sep 15 20:40:42 2011 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Thu, 15 Sep 2011 20:40:42 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?c2NvcmVob3N0cy5kYhskQiRONS0bKEI=?= =?iso-2022-jp?b?GyRCPVIbKEI=?= In-Reply-To: <1316083509.20690.ri007073@ed.ritsumei.ac.jp> References: <1315998675.24937.ri007073@ed.ritsumei.ac.jp> <4E715946.8060003@riken.jp> <1316076969.9977.ri007073@ed.ritsumei.ac.jp> <4E71C3B7.7080107@riken.jp> <1316083509.20690.ri007073@ed.ritsumei.ac.jp> Message-ID: <1316086842338222.kameyama@pccluster.org> 亀山です. On Thu, 15 Sep 2011 19:45:09 +0900 (JST) NISHIKAWA RIYO wrote: > selinuxはserverでは動いていませんでしたが、 > hostのほうで動いていました。 > 早速selinuxをdisableにし、 > 再起動したのですが > 相変わらずエラーが出ます。 > 他に考えられることはあるでしょうか? > 以下エラー内容です。 > > [root @ bront2 ~]# scout -g pcc > root @ nycto00.hpc.cs.ritsumei.ac.jp's password: > WINDUP.EXE @ nycto00#4627:WARNING: connect_host() at windup.c:217: bront2.hpc.se.ritsumei.ac.jp:48317: Operation not permitted > 〜〜略〜〜 > WINDUP.EXE @ nycto00#4627:ERROR: main() at windup.c:711: bront2.hpc.se.ritsumei.ac.jp:48317: Operation not permitted > WINDUP.EXE @ bront2#3649:ERROR: windup_accept() at windup.c:241: Waiting response from nycto00.hpc.cs.ritsumei.ac.jp timed out. ちょっと思いつきません. 私なら windup の起動を strace 経由にしてどの system call で エラー (EPERM) が出ているかを確認して kernel を眺めるところですが... > 実行するたびにポート番号が変わるのですが > そちらにも原因がありますでしょうか? こちらは仕様です. Kameyama Toyohisa From kameyama @ pccluster.org Fri Sep 16 14:44:15 2011 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Fri, 16 Sep 2011 14:44:15 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?c2NvcmVob3N0cy5kYhskQiRONS0bKEI=?= =?iso-2022-jp?b?GyRCPVIbKEI=?= In-Reply-To: <1316147204.31055.ri007073@ed.ritsumei.ac.jp> References: <1315998675.24937.ri007073@ed.ritsumei.ac.jp> <4E715946.8060003@riken.jp> <1316076969.9977.ri007073@ed.ritsumei.ac.jp> <4E71C3B7.7080107@riken.jp> <1316083509.20690.ri007073@ed.ritsumei.ac.jp> <1316086842338222.kameyama@pccluster.org> <1316147204.31055.ri007073@ed.ritsumei.ac.jp> Message-ID: <4E72E22F.90306@pccluster.org> 亀山です. (2011年09月16日 13:26), NISHIKAWA RIYO wrote: >> 私なら windup の起動を strace 経由にしてどの system call で >> エラー (EPERM) が出ているかを確認して kernel を眺めるところですが... > アドバイスの通り、早速straceでシステムコールを確認しようと思い > strace -f -o ./strace.log windup -rsh pcc > を実行したのですが、No Groupと表示されました。 > また# strace -p pidも試みましたが、 > pidを調べることができませんでした。 > > windup の起動を strace 経由にするにはどのように > したらよろしいでしょうか? 一番簡単なのは, $(INSTALL_ROOT)/bin/obj.*/windup.exe 別の名前に変更して, starce を呼ぶ script に書き換えてしまうことですが... script は $(INSTALL_ROOT)/bin/windup が上記コマンドを呼んでいるので, 参考になると思います. Kameyama Toyohisa From kameyama @ pccluster.org Sun Sep 18 06:27:38 2011 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Sun, 18 Sep 2011 06:27:38 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?c2NvcmVob3N0cy5kYhskQiRONS0bKEI=?= =?iso-2022-jp?b?GyRCPVIbKEI=?= In-Reply-To: <1316259871.10302.ri007073@ed.ritsumei.ac.jp> References: <1316250894.19072.ri007073@ed.ritsumei.ac.jp> <1316255581698831.kameyama@pccluster.org> <1316259871.10302.ri007073@ed.ritsumei.ac.jp> Message-ID: <1316294858285812.kameyama@pccluster.org> 亀山です. On Sat, 17 Sep 2011 20:44:31 +0900 (JST) NISHIKAWA RIYO wrote: > 西川です。 > 丁寧なアドバイスありがとうございました。 > おかげさまでwindupをstraceする事ができました。 > 以下がstarceの出力です。 > > execve("/opt/score/7.0.1/bin/obj.x86_64-rhel5-linux2_6/scorehosts.exe", ["/opt/score/7.0.1/bin/obj.x86_64-", "-r", "-q", "-g", "pcc"], [/* 46 vars */]) = 0 > brk(0) = 0x14d31000 > mmap(NULL, 4096, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0x2ab34f2bf000 > uname({sys="Linux", node="bront2.hpc.se.ritsumei.ac.jp", ...}) = 0 残念ながらこれは bront2 で実行した scorehosts -f -q ^g pcc の strace 結果ですね... 結果は > write(1, "nycto01.hpc.cs.ritsumei.ac.jp\n", 30) = 30 > exit_group(0) = ? nycto0 のみになっていますが, 意図どおりでしょうか? すみません. scout の最初の mail の > root @ nycto00.hpc.cs.ritsumei.ac.jp's password: を見落としていました. scout を使用するには, scout を実行するホストと計算ホスト (scout -g pcc で pcc に含まれるすべてのホスト) 相互間で password なしで ssh もしくは rsh できる必要があります. どうもそのような環境になっていないようで, nycto00 のパスワードを聞いています. (あれ, 上の結果は nycto01 のみ, なんで nycto01 のパスワードを 聞いているのでしょうか?) ssh/rsh の環境を調べてみてください. Kameyama Toyohisa From kameyama @ riken.jp Wed Sep 21 01:03:32 2011 From: kameyama @ riken.jp (Toyohisa Kameyama) Date: Wed, 21 Sep 2011 01:03:32 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?c2NvcmVob3N0cy5kYhskQiRONS0bKEI=?= =?iso-2022-jp?b?GyRCPVIbKEI=?= In-Reply-To: <1316526569.27206.ri007073@ed.ritsumei.ac.jp> References: <1316526569.27206.ri007073@ed.ritsumei.ac.jp> Message-ID: <1316534612590525.kameyama@riken.jp> 亀山です. On Tue, 20 Sep 2011 22:49:29 +0900 (JST) NISHIKAWA RIYO wrote: > 亀山さまの丁寧なご指導により > Score7.0.1でのクラスタ構成する事ができました。 > 亀山様のご指摘通り、SSHとRSHsの設定に > 問題がありました。 > どうもありがとうございます。 > > しかしここにきてSore7.0.1では > omniOpenMPが使えないと知り、CentOS4.4と > Score6.0.2.1でクラスタを組んでいます。 > 現在rpmtestにをおこなっているのですが > > pmEthernetOpenDevice("/var/score/scoreboard/bronto.Eo0:GB3Z", 0xbffff1b8): pmEthernetConfigure("/var/score/scoreboard/bronto.Eo0:GB3Z", 0xbffff1b4): 2 > pmOpenDevice: No such file or directory(2) > > というエラーがでて、進めずにいます。 > 対処方をご教授願えたらと思います。 設定ファイルが読めない可能性が高そうです. PM/Ethernet の config file があるかどうか, rpmtest を行うホストの /var/score/scoreboard/bronto.Eo0:GB3Z があるかどうか確認してください. Kameyama Toyohisa From kameyama @ pccluster.org Sun Sep 25 18:57:29 2011 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Sun, 25 Sep 2011 18:57:29 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?c2NvcmVob3N0cy5kYhskQiRONS0bKEI=?= =?iso-2022-jp?b?GyRCPVIbKEI=?= In-Reply-To: <1316937537.11537.ri007073@ed.ritsumei.ac.jp> References: <1316526569.27206.ri007073@ed.ritsumei.ac.jp> <1316534612590525.kameyama@riken.jp> <1316937537.11537.ri007073@ed.ritsumei.ac.jp> Message-ID: <1316944649729629.kameyama@pccluster.org> 亀山です. On Sun, 25 Sep 2011 16:58:57 +0900 (JST) NISHIKAWA RIYO wrote: > PM/Ethernet の config file > rpmtest を行うホストの > /var/score/scoreboard/bronto.Eo0:GB3Z > ともにありました。 > 自分なりにいろいろ調べ、これで間違いないと > 考えるのですが。。。 > ファイルを添附させていただきます。 PM/Ethernet を使用する場合は, etherpmctl http://www.pccluster.org/score_doc/score-6.0.2/html/ja/man/man8/etherpmctl.html で unit 番号と network device を結びつける必要があります. default は unit 0 と eth0 を結びつけているので, それ以外を使用したい場合は /etc/pm_ethernet.conf http://www.pccluster.org/score_doc/score-6.0.2/html/ja/man/man5/pm_ethernet.conf.html を編集してください. 現在の値は /proc/pm/ethernet/0/info をみてください. Kameyama Toyohisa From kameyama @ pccluster.org Mon Sep 26 16:36:24 2011 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Mon, 26 Sep 2011 16:36:24 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?c2NvcmVob3N0cy5kYhskQiRONS0bKEI=?= =?iso-2022-jp?b?GyRCPVIbKEI=?= In-Reply-To: <1316949212.2855.ri007073@ed.ritsumei.ac.jp> References: <1316526569.27206.ri007073@ed.ritsumei.ac.jp> <1316534612590525.kameyama@riken.jp> <1316937537.11537.ri007073@ed.ritsumei.ac.jp> <1316944649729629.kameyama@pccluster.org> <1316949212.2855.ri007073@ed.ritsumei.ac.jp> Message-ID: <4E802B78.8000608@pccluster.org> 亀山です. (2011年09月25日 20:13), NISHIKAWA RIYO wrote: > 御返事まことににありがとうございます > # etherpmctl eth2 -pm on -unit 0 を実行したところ > epmctl IOCTL failed(16) > Trying old style....device: eth2 > etherpmctl: ERROR on unit 0: "Operation not supported(95)" Check dmesg log!! > というエラーがでました。 > そこでpm_ethernetのデバイスが組みこまれてないのではと思いnetdevと% dmesg | grep pmをためしました。 > > # /opt/score/install/linux2.6/netdev -a の結果は、 > eth0 bnx2 > eth1 bnx2 > eth2 e1000_scorepm1 > となりました。 現象としては http://www.pccluster.org/pipermail/score-users-jp/2007-December/003356.html に似ているような... http://www.pccluster.org/pipermail/score-users-jp/2007-December/003358.html をチェックしてみてください. Kameyama Toyohisa