From ishikawa @ is.s.u-tokyo.ac.jp Fri Mar 6 13:29:48 2009 From: ishikawa @ is.s.u-tokyo.ac.jp (Yutaka Ishikawa) Date: Fri, 06 Mar 2009 13:29:48 +0900 (JST) Subject: [SCore-users-jp] =?iso-8859-1?q?=28=CC=B5=C2=EA=29?= Message-ID: <20090306.132948.179776957.ishikawa@is.s.u-tokyo.ac.jp> SCoreユ−ザの皆様、 下記ワークショップのアナウンスをさせて頂きます。締め切りを9日(月)12:00 まで延長しました。 文科省プロジェクトの取組状況やHPC関連の企業の発表など最新情報が1日で分 かります。皆様の御参加をお待ちしております。 石川 ---------------------------------------------------------------------------- PCクラスタワークショップin大阪 主催:PCクラスタコンソーシアム(http://www.pccluster.org/) 日程:2009年3月13日(金) 10:00 - 17:45 場所:富士通株式会社 関西システムラボラトリ http://jp.fujitsu.com/facilities/kansai/ 事前登録制:http://www.pccluster.org/から御登録下さい 締め切り 3月9日(月) 講演概要は以下のURLを参照下さい  http://www.pccluster.org/event/workshop/pcc2009osaka/ 【開催趣旨】 PCクラスタコンソーシアム主催のクラスタに関するワークショップを大阪で 開催致します。午前中は、PCクラスタコンソーシアム提供の高性能並列プロ グラミング環境SCoreの最新リリースSCore7のご紹介、最新のプロセッサ動向、 午後には、今年度から開始された文部科学省プロジェクト「e-サイエンス 実現のためのシステム統合・連携ソフトウェアの研究開発」に関する講演、 T2Kオープンスパコン東大版の状況、コンソーシアムメンバ各社による発表と PCクラスタを取り巻く最新の技術動向が満載です。 皆様のご来場をお待ちしています。 【プログラム】    9:30〜10:00 受付   10:00〜10:10 オープニング&コンソーシアム紹介           石川 裕(PCクラスタコンソーシアム/東京大学)   10:10〜10:50 SCore紹介           堀 敦史(PCクラスタコンソーシアム/東京大学)   10:50〜11:50 PCクラスタプラットフォーム動向           ・インテル(r)Core(tm)7マイクロアーキテクチャのご紹介            池井 満(インテル株式会社)           ・AMD最新テクノロジーアップデート            山野 洋幸(日本AMD株式会社)   11:50〜13:00 昼休み   13:00〜15:00 「e-サイエンス実現のためのシステム統合・連携           ソフトウェアの研究開発」プロジェクトの現況報告           三浦 謙一 (国立情報学研究所)、佐藤 三久 (筑波大学)、           平石 拓 (京都大学)、石川 裕 (東京大学)   15:00〜15:30 コーヒーブレイク   15:30〜16:10 T2Kオープンスパコン東大版の半年           鴨志田 良和(東京大学)   16:10〜17:40 企業発表 ・NECのGPUコンピューティングへの取り組み 加藤 季広 (日本電気株式会社) ・日立のHPC分野への取り組み 清水 正明 (株式会社日立製作所) ・次期PCクラスタ向けジョブスケジューラと ネットワーク機能のご紹介 久門 耕一 (株式会社富士通研究所) ・ ベストシステムズHPC製品概要 西 克也 (株式会社ベストシステムズ) ・日本HP のクラスタビジネスへの取り組み 原田 浩 (日本ヒューレット・パッカード株式会社) ・HPCソリューションズのHPC分野への取り組みと、 APPRO社Xtreme-X 根本 雅樹(株式会社HPCソリューションズ)   17:40〜17:45 クロージング   17:45〜19:15 懇親会 ---------------------------------------------------------------------- From honda @ ace.ec.saga-u.ac.jp Tue Mar 10 16:49:17 2009 From: honda @ ace.ec.saga-u.ac.jp (Kohei HONDA) Date: Tue, 10 Mar 2009 16:49:17 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?UE1YLUV0aGVySFhCLURyaXZlcg==?= =?iso-2022-jp?b?GyRCJE5ESTJDJEskRCQkJEYbKEI=?= Message-ID: <20090310164917.ea00a8a4.honda@ace.ec.saga-u.ac.jp> 佐賀大学の本田というものです。 SCore7.0.0を使用しPCクラスタを構築しています。 ノードのNICに Realtek社のRTL-8169 Gigabit Ethernetカードを使用しているので、 PMXに対応させるためHowToAdd-PMX-EtherHXB-Driver.txtを 参考にしてr8169のためのドライバ作成を行っております。 その際、(6.の項目が二つあるようですが一番目の項目の) 6. Compile the new PMX/EtherHXB device driver on a compute host にて下記のようなエラーが発生し完了することができませんでした。 [root @ scoreheadnode bin]# ./make_all_modules module directory list file is not found. Please make userland first. また、6.の項目を飛ばして作業を行いました。 作成したモジュール名はr8169_scorepm.koです。 モジュールを /lib/modules//extra/score+pm/ に配置し、 [root @ scoreheadnode ~]# modprobe r8169_scorepm を実行したところ FATAL: Error inserting r8169_scorepm (/lib/modules/2.6.18-92.1.22.el5/extra/score+pm/r8169_scorepm.ko): Unknown symbol in module, or unknown parameter (see dmesg) とエラーが発生しました。 dmesgの該当する部分は r8169_scorepm: Unknown symbol pm_ethernet2_alloc_skb r8169_scorepm: Unknown symbol pm_ethernet2_netif_rxfunc r8169_scorepm: Unknown symbol pm_ethernet2_kfree_skb となっておりました。 また、lsmodを行うと下記のようになっておりました。 [root @ scoreheadnode ~]# lsmod | grep pm pmx_etherhxb 707252 0 pmx_ethernet 61152 0 e1000_pmx 224128 0 pmx_etherhxb_mem 8501256 2 pmx_etherhxb,e1000_pmx pmx_ethernet_loader 39584 4 pmx_etherhxb,pmx_ethernet,e1000_pmx,pmx_etherhxb_mem この問題にはどのように対処すればよいのでしょうか? よろしくお願いします。 -- 佐賀大学大学院工学系研究科 博士前期課程電気電子工学専攻 計算機応用工学研究室 08534026 本田 晃平 honda @ ace.ec.saga-u.ac.jp From kameyama @ pccluster.org Tue Mar 10 19:19:00 2009 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Tue, 10 Mar 2009 19:19:00 +0900 Subject: [SCore-users-jp] =?ISO-2022-JP?B?UE1YLUV0aGVySFhCLURyaXZlchskQiROGyhC?= =?ISO-2022-JP?B?GyRCREkyQyRLJEQkJCRGGyhC?= In-Reply-To: <20090310164917.ea00a8a4.honda@ace.ec.saga-u.ac.jp> References: <20090310164917.ea00a8a4.honda@ace.ec.saga-u.ac.jp> Message-ID: <49B63E94.5030708@pccluster.org> 亀山です. Kohei HONDA Wrote: > SCore7.0.0を使用しPCクラスタを構築しています。 > ノードのNICに Realtek社のRTL-8169 Gigabit Ethernetカードを使用しているので、 > PMXに対応させるためHowToAdd-PMX-EtherHXB-Driver.txtを > 参考にしてr8169のためのドライバ作成を行っております。 ちなみに, PMX/Ethernet は NIC driver の改造無しに動きます. (pmx_ethernet_loader と pmx_ethernet が load されていれば良いです.) PMX/Etherhxb を使用するときのみ NIC driver をいじる必要があります. > その際、(6.の項目が二つあるようですが一番目の項目の) > 6. Compile the new PMX/EtherHXB device driver on a compute host > にて下記のようなエラーが発生し完了することができませんでした。 > > [root @ scoreheadnode bin]# ./make_all_modules > module directory list file is not found. Please make userland first. すみません. これは不要です. > > また、6.の項目を飛ばして作業を行いました。 > 作成したモジュール名はr8169_scorepm.koです。 多分, この module は SCore6 のものではないかと思います. PMX/Etherhxb の場合は > r8169_scorepm: Unknown symbol pm_ethernet2_alloc_skb > r8169_scorepm: Unknown symbol pm_ethernet2_netif_rxfunc > r8169_scorepm: Unknown symbol pm_ethernet2_kfree_skb pmx_etherhxb_alloc_skb. pmel_netif_receive_skb, pmx_etherhxb_dev_kfree_skb を使用するはずです. r8169 の driver が compile できているか, install できているか 確認してください. module は /opt/score/modules/obj.x86_64-rhel5-linux2_6\@kernel_version の下にできます. Kameyama Toyohisa From honda @ ace.ec.saga-u.ac.jp Wed Mar 11 13:10:12 2009 From: honda @ ace.ec.saga-u.ac.jp (Kohei HONDA) Date: Wed, 11 Mar 2009 13:10:12 +0900 Subject: [SCore-users-jp] =?ISO-2022-JP?B?UE1YLUV0aGVySFhCLURyaXZlcg==?= =?ISO-2022-JP?B?GyRCJE5ESTJDJEskRCQkJEYbKEI=?= In-Reply-To: <49B63E94.5030708@pccluster.org> References: <20090310164917.ea00a8a4.honda@ace.ec.saga-u.ac.jp> <49B63E94.5030708@pccluster.org> Message-ID: <20090311131012.1bb1eeab.honda@ace.ec.saga-u.ac.jp> 佐賀大学の本田です。 亀山様ご回答ありがとうございます。 > 亀山です. > > Kohei HONDA Wrote: > > SCore7.0.0を使用しPCクラスタを構築しています。 > > ノードのNICに Realtek社のRTL-8169 Gigabit Ethernetカードを使用しているので、 > > PMXに対応させるためHowToAdd-PMX-EtherHXB-Driver.txtを > > 参考にしてr8169のためのドライバ作成を行っております。 > > ちなみに, PMX/Ethernet は NIC driver の改造無しに動きます. > (pmx_ethernet_loader と pmx_ethernet が load されていれば良いです.) > PMX/Etherhxb を使用するときのみ NIC driver をいじる必要があります. r8169 NIC driverを改造せずにPMX/Ethernetで 動作させるにはどのようにすればよいのでしょうか? 現在はMPIプログラムを1ノードでは実行できますが、 複数ノード実行するとプログラムがなんのメッセージも出力せず応答しなくなってしまいます。 /var/log/messages を見ると、 Mar 11 12:16:37 scoreheadnode last message repeated 2 times Mar 11 12:16:37 scoreheadnode kernel: pmel_netif_rx alignment error skb->data in skb ffff8100c497d980 proto=805 head=ffff8100a353e000 Mar 11 12:16:37 scoreheadnode kernel: pmel_netif_rx alignment error skb->data in skb ffff810119ecd780 proto=805 head=ffff81012e484000 というようなログが繰り返し出力されていました。 ログ内のscoreheadnodeはヘッドノードのホスト名です。 また、head=ffff8100a353e000 の部分は同じ値が出ることもありましたが、 変化している場合もありました。 > pmx_etherhxb_alloc_skb. pmel_netif_receive_skb, > pmx_etherhxb_dev_kfree_skb を使用するはずです. > r8169 の driver が compile できているか, install できているか > 確認してください. > module は > /opt/score/modules/obj.x86_64-rhel5-linux2_6\@kernel_version > の下にできます. 指定されたディレクトリ内に作成したr8169_scorepm.koがありました。 moduleはHowToAdd-PMX-EtherHXB-Driver.txtに沿って作成したものです。 このmoduleは /lib/modules/2.6.18-92.1.22.el5/extra/score+pm/ にも配置されていました。 modprobeでmoduleを追加しようとした場合の結果は 以前のメールの時と同様でした。 また、作成したmoduleの依存関係を見ると以下のようになっていました。 [root @ scoreheadnode linux2_6]# modinfo r8169_scorepm | grep depend depends: 対してe1000_pmxの場合は以下のようになっていました。 [root @ scoreheadnode linux2_6]# modinfo e1000_pmx | grep depend depends: pmx_ethernet_loader,pmx_etherhxb_mem この依存関係が設定できていないことが原因ではないかと考えています。 依存関係の設定方法やその他の問題点に関してご助力お願い致します。 -- 佐賀大学大学院工学系研究科 博士前期課程電気電子工学専攻 計算機応用工学研究室 08534026 本田 晃平 honda @ ace.ec.saga-u.ac.jp From kameyama @ pccluster.org Wed Mar 11 14:16:44 2009 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Wed, 11 Mar 2009 14:16:44 +0900 Subject: [SCore-users-jp] =?ISO-2022-JP?B?UE1YLUV0aGVySFhCLURyaXZlchskQiROGyhC?= =?ISO-2022-JP?B?GyRCREkyQyRLJEQkJCRGGyhC?= In-Reply-To: <20090311131012.1bb1eeab.honda@ace.ec.saga-u.ac.jp> References: <20090310164917.ea00a8a4.honda@ace.ec.saga-u.ac.jp> <49B63E94.5030708@pccluster.org> <20090311131012.1bb1eeab.honda@ace.ec.saga-u.ac.jp> Message-ID: <49B7493C.1010104@pccluster.org> 亀山です. Kohei HONDA Wrote: >> Kohei HONDA Wrote: >>> SCore7.0.0を使用しPCクラスタを構築しています。 >>> ノードのNICに Realtek社のRTL-8169 Gigabit Ethernetカードを使用しているので、 >>> PMXに対応させるためHowToAdd-PMX-EtherHXB-Driver.txtを >>> 参考にしてr8169のためのドライバ作成を行っております。 >> ちなみに, PMX/Ethernet は NIC driver の改造無しに動きます. >> (pmx_ethernet_loader と pmx_ethernet が load されていれば良いです.) >> PMX/Etherhxb を使用するときのみ NIC driver をいじる必要があります. > > r8169 NIC driverを改造せずにPMX/Ethernetで > 動作させるにはどのようにすればよいのでしょうか? > > 現在はMPIプログラムを1ノードでは実行できますが、 > 複数ノード実行するとプログラムがなんのメッセージも出力せず応答しなくなってしまいます。 > /var/log/messages を見ると、 > > Mar 11 12:16:37 scoreheadnode last message repeated 2 times > Mar 11 12:16:37 scoreheadnode kernel: pmel_netif_rx alignment error skb->data in どうも r8169 の driver は Ethernet packet が PMX/Ethernet が意図する alignment にあっていないようです. score7-src/SCore/pmx/arch/etherhxb/driver/loader/linux2_6/pmx_ethernet_loader.c の pmx_ethernet_loader_rxfunc() でそのチェックを行っているのですが, その部分 if(((unsigned long)skb->data)&0x3) { printk("pmel_netif_rx alignment error skb->data in skb %p proto=%x head= %p\n", skb, htons(pt->type), skb->head); kfree_skb(skb); local_irq_restore(flags); return NET_RX_SUCCESS; } を comment out してみてください. >> pmx_etherhxb_alloc_skb. pmel_netif_receive_skb, >> pmx_etherhxb_dev_kfree_skb を使用するはずです. >> r8169 の driver が compile できているか, install できているか >> 確認してください. >> module は >> /opt/score/modules/obj.x86_64-rhel5-linux2_6\@kernel_version >> の下にできます. > > 指定されたディレクトリ内に作成したr8169_scorepm.koがありました。 > moduleはHowToAdd-PMX-EtherHXB-Driver.txtに沿って作成したものです。 > このmoduleは > /lib/modules/2.6.18-92.1.22.el5/extra/score+pm/ > にも配置されていました。 > > modprobeでmoduleを追加しようとした場合の結果は > 以前のメールの時と同様でした。 symbol name が SCore6 のものに一致するのですが... すみません. include file の名前が違うようです. #include "pmx_etherhxb_client.h" にしてください. > また、作成したmoduleの依存関係を見ると以下のようになっていました。 > [root @ scoreheadnode linux2_6]# modinfo r8169_scorepm | grep depend > depends: > > 対してe1000_pmxの場合は以下のようになっていました。 > [root @ scoreheadnode linux2_6]# modinfo e1000_pmx | grep depend > depends: pmx_ethernet_loader,pmx_etherhxb_mem > > この依存関係が設定できていないことが原因ではないかと考えています。 これも問題かも... (symbol が違うだけだと良いのですが...) 4. で score7-src/SCore/pmx/arch/etherhxb/driver/Makefileいじっていますが, ここで r8169 は 最後に追加してください. (少なくても etherhxb_mem の後ろに...) NIC driver の Makefile に MODULE_DEPEND = pmx_etherhxb_mem があることを確認してください. 依存関係の検出はその driver を compile するとき ~/sc7/score7-src/modules/obj.x86_64-rhel5-linux2_6 @ kernel_version/Module.symvers を見て決定します. 依存関係が検出できたら nic driver directory の obj.x86_64-rhel5-linux2_6 @ kernel_version/*_mod.c に書き込まれます. Kameyama Toyohisa From honda @ ace.ec.saga-u.ac.jp Wed Mar 11 17:58:52 2009 From: honda @ ace.ec.saga-u.ac.jp (Kohei HONDA) Date: Wed, 11 Mar 2009 17:58:52 +0900 Subject: [SCore-users-jp] =?ISO-2022-JP?B?UE1YLUV0aGVySFhCLURyaXZlcg==?= =?ISO-2022-JP?B?GyRCJE5ESTJDJEskRCQkJEYbKEI=?= In-Reply-To: <49B7493C.1010104@pccluster.org> References: <20090310164917.ea00a8a4.honda@ace.ec.saga-u.ac.jp> <49B63E94.5030708@pccluster.org> <20090311131012.1bb1eeab.honda@ace.ec.saga-u.ac.jp> <49B7493C.1010104@pccluster.org> Message-ID: <20090311175852.6ed104ef.honda@ace.ec.saga-u.ac.jp> 佐賀大学の本田です。 亀山様ご回答ありがとうございます。 > score7-src/SCore/pmx/arch/etherhxb/driver/loader/linux2_6/pmx_ethernet_loader.c > の > pmx_ethernet_loader_rxfunc() > でそのチェックを行っているのですが, その部分 > if(((unsigned long)skb->data)&0x3) { > printk("pmel_netif_rx alignment error skb->data in skb %p proto=%x head= > %p\n", skb, htons(pt->type), skb->head); > kfree_skb(skb); > local_irq_restore(flags); > return NET_RX_SUCCESS; > } > を comment out してみてください. 上記の変更を行いMPI版HelloWorldを実行したところエラーが発生しました。 r8169_scorepm.koは外して実行しました。 ノードの名前などは以下のようになっています。 ヘッドノードがscoreheadnode.scorepccluster.org 計算ノードがscore01.scorepccluster.org の計2台で構成しています。 scoreuserはNISユーザでNFSで共有されている/home1/scoreuser/を ホームディレクトリとしています。 networkはscorehosts.dbでethernetを指定しています。 かなり長いメッセージですが、以下に出力されたエラーを貼り付けします。 [scoreuser @ scoreheadnode ~]$ scrun -group=machinefile ./a.out SCORED.EXE @ scoreheadnode#14855 <><><><><<><> (no trace available) <><><><><<><> SCORED.EXE @ scoreheadnode#14855: SIGSEGV (Address not mapped to object) SCORED.EXE @ scoreheadnode#14855: Fault address is at 0x18 00400000-00425000 r-xp 00000000 fd:00 12782135 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/scored.exe 00625000-00626000 rw-p 00025000 fd:00 12782135 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/scored.exe 00626000-00656000 rw-p 00626000 00:00 0 1b2d4000-1b306000 rw-p 1b2d4000 00:00 0 3cd2a00000-3cd2a1a000 r-xp 00000000 fd:00 26476818 /lib64/ld-2.5.so 3cd2c1a000-3cd2c1b000 r--p 0001a000 fd:00 26476818 /lib64/ld-2.5.so 3cd2c1b000-3cd2c1c000 rw-p 0001b000 fd:00 26476818 /lib64/ld-2.5.so 3cd2e00000-3cd2f4a000 r-xp 00000000 fd:00 26476819 /lib64/libc-2.5.so 3cd2f4a000-3cd314a000 ---p 0014a000 fd:00 26476819 /lib64/libc-2.5.so 3cd314a000-3cd314e000 r--p 0014a000 fd:00 26476819 /lib64/libc-2.5.so 3cd314e000-3cd314f000 rw-p 0014e000 fd:00 26476819 /lib64/libc-2.5.so 3cd314f000-3cd3154000 rw-p 3cd314f000 00:00 0 3cd3200000-3cd3282000 r-xp 00000000 fd:00 26476820 /lib64/libm-2.5.so 3cd3282000-3cd3481000 ---p 00082000 fd:00 26476820 /lib64/libm-2.5.so 3cd3481000-3cd3482000 r--p 00081000 fd:00 26476820 /lib64/libm-2.5.so 3cd3482000-3cd3483000 rw-p 00082000 fd:00 26476820 /lib64/libm-2.5.so 3cd3600000-3cd3602000 r-xp 00000000 fd:00 26476830 /lib64/libdl-2.5.so 3cd3602000-3cd3802000 ---p 00002000 fd:00 26476830 /lib64/libdl-2.5.so 3cd3802000-3cd3803000 r--p 00002000 fd:00 26476830 /lib64/libdl-2.5.so 3cd3803000-3cd3804000 rw-p 00003000 fd:00 26476830 /lib64/libdl-2.5.so 3cd3a00000-3cd3a15000 r-xp 00000000 fd:00 26476821 /lib64/libpthread-2.5.so 3cd3a15000-3cd3c14000 ---p 00015000 fd:00 26476821 /lib64/libpthread-2.5.so 3cd3c14000-3cd3c15000 r--p 00014000 fd:00 26476821 /lib64/libpthread-2.5.so 3cd3c15000-3cd3c16000 rw-p 00015000 fd:00 26476821 /lib64/libpthread-2.5.so 3cd3c16000-3cd3c1a000 rw-p 3cd3c16000 00:00 0 3ce0800000-3ce080d000 r-xp 00000000 fd:00 26476884 /lib64/libgcc_s-4.1.2-20080102.so.1 3ce080d000-3ce0a0d000 ---p 0000d000 fd:00 26476884 /lib64/libgcc_s-4.1.2-20080102.so.1 3ce0a0d000-3ce0a0e000 rw-p 0000d000 fd:00 26476884 /lib64/libgcc_s-4.1.2-20080102.so.1 3ce2c00000-3ce2ce6000 r-xp 00000000 fd:00 4955387 /usr/lib64/libstdc++.so.6.0.8 3ce2ce6000-3ce2ee5000 ---p 000e6000 fd:00 4955387 /usr/lib64/libstdc++.so.6.0.8 3ce2ee5000-3ce2eeb000 r--p 000e5000 fd:00 4955387 /usr/lib64/libstdc++.so.6.0.8 3ce2eeb000-3ce2eee000 rw-p 000eb000 fd:00 4955387 /usr/lib64/libstdc++.so.6.0.8 3ce2eee000-3ce2f00000 rw-p 3ce2eee000 00:00 0 2b57284ec000-2b57284ee000 rw-p 2b57284ec000 00:00 0 2b57284ee000-2b57284f5000 r-xp 00000000 fd:00 12782104 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/libscoredlib.so.0.0 2b57284f5000-2b57286f5000 ---p 00007000 fd:00 12782104 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/libscoredlib.so.0.0 2b57286f5000-2b57286f6000 rw-p 00007000 fd:00 12782104 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/libscoredlib.so.0.0 2b57286f6000-2b5728701000 r-xp 00000000 fd:00 12782474 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/libscorecommon.so.0.0 2b5728701000-2b5728901000 ---p 0000b000 fd:00 12782474 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/libscorecommon.so.0.0 2b5728901000-2b5728902000 rw-p 0000b000 fd:00 12782474 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/libscorecommon.so.0.0 2b5728902000-2b5728903000 rw-p 2b5728902000 00:00 0 2b5728903000-2b5728919000 rw-s 00000000 fd:00 3211907 /var/SCore/7/pmx/composite/shared-mmap:0.0 2b572891e000-2b572891f000 rw-p 2b572891e000 00:00 0 2b572891f000-2b5728923000 r-xp 00000000 fd:00 12782513 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/libscout.so.0.0 2b5728923000-2b5728b23000 ---p 00004000 fd:00 12782513 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/libscout.so.0.0 2b5728b23000-2b5728b24000 rw-p 00004000 fd:00 12782513 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/libscout.so.0.0 2b5728b24000-2b5728b34000 rw-p 2b5728b24000 00:00 0 2b5728b34000-2b5728b37000 r-xp 00000000 fd:00 12782504 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/libmsgb.so.0.0 2b5728b37000-2b5728d36000 ---p 00003000 fd:00 12782504 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/libmsgb.so.0.0 2b5728d36000-2b5728d37000 rw-p 00002000 fd:00 12782504 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/libmsgb.so.0.0 2b5728d37000-2b5728d3b000 r-xp 00000000 fd:00 12782500 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/libscboard.so.0.0 2b5728d3b000-2b5728f3b000 ---p 00004000 fd:00 12782500 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/libscboard.so.0.0 2b5728f3b000-2b5728f3c000 rw-p 00004000 fd:00 12782500 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/libscboard.so.0.0 2b5728f3c000-2b5729009000 rw-p 2b5728f3c000 00:00 0 2b5729009000-2b5729013000 r-xp 00000000 fd:00 12782095 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/libpmx.so.0.0 2b5729013000-2b5729213000 ---p 0000a000 fd:00 12782095 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/libpmx.so.0.0 2b5729213000-2b5729214000 rw-p 0000a000 fd:00 12782095 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/libpmx.so.0.0 2b5729214000-2b5729218000 rw-p 2b5729214000 00:00 0 2b5729218000-2b572921a000 r-xp 00000000 fd:00 12782107 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/libscorekvs.so.0.0 2b572921a000-2b5729419000 ---p 00002000 fd:00 12782107 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/libscorekvs.so.0.0 2b5729419000-2b572941a000 rw-p 00001000 fd:00 12782107 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/libscorekvs.so.0.0 2b572941a000-2b572941b000 rw-p 2b572941a000 00:00 0 2b572941b000-2b5729423000 r-xp 00000000 fd:00 12782116 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/libult.so.0.0 2b5729423000-2b5729622000 ---p 00008000 fd:00 12782116 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/libult.so.0.0 2b5729622000-2b5729623000 rw-p 00007000 fd:00 12782116 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/libult.so.0.0 2b5729623000-2b572962c000 rw-p 2b5729623000 00:00 0 2b572962c000-2b5729636000 r-xp 00000000 fd:00 26476571 /lib64/libnss_files-2.5.so 2b5729636000-2b5729835000 ---p 0000a000 fd:00 26476571 /lib64/libnss_files-2.5.so 2b5729835000-2b5729836000 r--p 00009000 fd:00 26476571 /lib64/libnss_files-2.5.so 2b5729836000-2b5729837000 rw-p 0000a000 fd:00 26476571 /lib64/libnss_files-2.5.so 2b5729837000-2b572983c000 r-xp 00000000 fd:00 12782079 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/ethernet.so.0.0 2b572983c000-2b5729a3b000 ---p 00005000 fd:00 12782079 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/ethernet.so.0.0 2b5729a3b000-2b5729a3c000 rw-p 00004000 fd:00 12782079 /opt/score/7.0.0/deploy/obj.x86_64-rhel5-linux2_6/ethernet.so.0.0 2b5729a3c000-2b5729a3d000 rw-s 00000000 00:10 15097 /dev/etherpmx/0 2b5729a3d000-2b5729a5d000 rw-s 03000000 00:10 15097 /dev/etherpmx/0 2b5729a5d000-2b5729a61000 rw-s 00800000 00:10 15097 /dev/etherpmx/0 2b5729a61000-2b5729a81000 rw-s 02000000 00:10 15097 /dev/etherpmx/0 2b5729a81000-2b5729a85000 rw-s 00100000 00:10 15097 /dev/etherpmx/0 2b5729a85000-2b572aa96000 rw-p 2b5729a85000 00:00 0 2b572aa96000-2b572aa97000 ---p 00000000 00:10 1449 /dev/zero 2b572aa97000-2b572aaa8000 rwxp 00001000 00:10 1449 /dev/zero 2b572aaa8000-2b572aaa9000 ---p 00012000 00:10 1449 /dev/zero 2b572aaa9000-2b572aaba000 rwxp 00013000 00:10 1449 /dev/zero 2b572aaba000-2b572aabb000 ---p 00024000 00:10 1449 /dev/zero 2b572aabb000-2b572aacc000 rwxp 00025000 00:10 1449 /dev/zero 2b572aacc000-2b572aacd000 ---p 00036000 00:10 1449 /dev/zero 2b572aacd000-2b572aade000 rwxp 00037000 00:10 1449 /dev/zero 2b572aade000-2b572aadf000 ---p 00048000 00:10 1449 /dev/zero 2b572aadf000-2b572aaf0000 rwxp 00049000 00:10 1449 /dev/zero 2b572aaf0000-2b572aaf1000 ---p 0005a000 00:10 1449 /dev/zero 2b572aaf1000-2b572ab02000 rwxp 0005b000 00:10 1449 /dev/zero 2b572ab02000-2b572ab03000 ---p 0006c000 00:10 1449 /dev/zero 2b572ab03000-2b572ab14000 rwxp 0006d000 00:10 1449 /dev/zero 2b572ab14000-2b572ab15000 ---p 0007e000 00:10 1449 /dev/zero 2b572ab15000-2b572ab26000 rwxp 0007f000 00:10 1449 /dev/zero 2b572ab26000-2b572ab27000 ---p 00090000 00:10 1449 /dev/zero 2b572ab27000-2b572ab38000 rwxp 00091000 00:10 1449 /dev/zero 2b572ab38000-2b572ab39000 ---p 000a2000 00:10 1449 /dev/zero 2b572ab39000-2b572ab4a000 rwxp 000a3000 00:10 1449 /dev/zero 2b572ab4a000-2b572ab4b000 ---p 000b4000 00:10 1449 /dev/zero 2b572ab4b000-2b572ab5c000 rwxp 000b5000 00:10 1449 /dev/zero 2b572ab5c000-2b572ab5d000 ---p 000c6000 00:10 1449 /dev/zero 2b572ab5d000-2b572ab6e000 rwxp 000c7000 00:10 1449 /dev/zero 2b572ab6e000-2b572ab6f000 ---p 000d8000 00:10 1449 /dev/zero 2b572ab6f000-2b572ab80000 rwxp 000d9000 00:10 1449 /dev/zero 2b572ab80000-2b572ab81000 ---p 000ea000 00:10 1449 /dev/zero 2b572ab81000-2b572ab92000 rwxp 000eb000 00:10 1449 /dev/zero 2b572ab92000-2b572ab93000 ---p 000fc000 00:10 1449 /dev/zero 2b572ab93000-2b572aba4000 rwxp 000fd000 00:10 1449 /dev/zero 2b572aba4000-2b572aba5000 ---p 0010e000 00:10 1449 /dev/zero 2b572aba5000-2b572abb6000 rwxp 0010f000 00:10 1449 /dev/zero 2b572abb6000-2b572abb7000 rw-p 2b572abb6000 00:00 0 7fff825a8000-7fff825be000 rw-p 7fff825a8000 00:00 0 [stack] ffffffffff600000-ffffffffffe00000 ---p 00000000 00:00 0 [vdso] Using host libthread_db library "/lib64/libthread_db.so.1". [Thread debugging using libthread_db enabled] [New Thread 47653356481856 (LWP 14855)] 0x0000003cd3a0d924 in wait () from /lib64/libpthread.so.0 #0 0x0000003cd3a0d924 in wait () from /lib64/libpthread.so.0 #1 0x00002b57286feec3 in __sc__attach_debugger (ctxp=) at ../attach.c:127 #2 0x00002b57286fed62 in score_exception_handler (signal=24, info=0x1b2e4d70, ctx=0x1b2e4c40) at ../attach.c:180 #3 #4 0x00000000004140c0 in run_all (node_gp= {gval = {gp = {pe = 0, addr = {laddr = 0x0, naddr = 0x0, b32s = {d1 = 0, d2 = 0}, b8s = {d1 = 0 '\0', d2 = 0 '\0', d3 = 0 '\0', d4 = 0 '\0', d5 = 0 '\0', d6 = 0 '\0', d7 = 0 '\0', d8 = 0 '\0'}}, size = 0}}}) at /home1/scoreuser/pmx_module/score7-src//SCore/scored/mttl-ult/mpcxx_sync_inlines.h:82 #5 0x00002b572abb5bc0 in ?? () #6 0x0000000000000000 in ?? () [scoreuser @ scoreheadnode ~]$ > symbol name が SCore6 のものに一致するのですが... > すみません. > include file の名前が違うようです. > #include "pmx_etherhxb_client.h" > にしてください. すみません、ヘッダファイルを間違えて pm_ethernet_client.h と指定していました。 ご指摘のヘッダファイルを使用してmakeしたところ、依存関係も解決しました。 しかし、networkをetherhxbと指定してMPIHelloWorldを実行したところ、 何も出力されず応答しない状態となってしまいました。 よろしくお願いします。 -- 佐賀大学大学院工学系研究科 博士前期課程電気電子工学専攻 計算機応用工学研究室 08534026 本田 晃平 honda @ ace.ec.saga-u.ac.jp From kameyama @ pccluster.org Wed Mar 11 18:41:45 2009 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Wed, 11 Mar 2009 18:41:45 +0900 Subject: [SCore-users-jp] =?ISO-2022-JP?B?UE1YLUV0aGVySFhCLURyaXZlchskQiROGyhC?= =?ISO-2022-JP?B?GyRCREkyQyRLJEQkJCRGGyhC?= In-Reply-To: <20090311175852.6ed104ef.honda@ace.ec.saga-u.ac.jp> References: <20090310164917.ea00a8a4.honda@ace.ec.saga-u.ac.jp> <49B63E94.5030708@pccluster.org> <20090311131012.1bb1eeab.honda@ace.ec.saga-u.ac.jp> <49B7493C.1010104@pccluster.org> <20090311175852.6ed104ef.honda@ace.ec.saga-u.ac.jp> Message-ID: <49B78759.5070008@pccluster.org> 亀山です. Kohei HONDA Wrote: > 上記の変更を行いMPI版HelloWorldを実行したところエラーが発生しました。 すみません. PMX/Ethernet か SCore-D か問題を切り分けたいので, % scout -g machinefile -e pmxtest -iter 1 -network ethernet をやってみてください. これを実行すると, 以下のような出力が出ます. 11/Mar/09 18:22:25 #### PMX Test for [ethernet,smp=1,key=16] #### 11/Mar/09 18:22:25 #### 500 [msec] per step #### Testing Two-Sided Communication (MTU is 1460 Bytes) Receive Polling (ENOBUFS) 0.0303 us for 16600000 times iteration Send Polling (ENOBUFS) 32 B : 0.0447 us for 11200000 times iteration 64 B : 0.0447 us for 11200000 times iteration 128 B : 0.0447 us for 11200000 times iteration 256 B : 0.0447 us for 11200000 times iteration 512 B : 0.0447 us for 11200000 times iteration 1 KB: 0.0447 us for 11200000 times iteration 1 KB: 0.0447 us for 11200000 times iteration One-Way, Peer-to-Peer, Burst Communication [0->1] 32 B .. 86.80 KP/s (44801 pkt) 11.52 us/p 2.78 MB/s S/R 72.87% [1->0] 32 B .. 168.68 KP/s (84401 pkt) 5.93 us/p 5.40 MB/s RNB=1458208 [0->1] 64 B .. 85.46 KP/s (43001 pkt) 11.70 us/p 5.47 MB/s S/R 74.97% [1->0] 64 B .. 174.06 KP/s (87101 pkt) 5.75 us/p 11.14 MB/s RNB=475249 [0->1] 128 B .. 79.11 KP/s (39601 pkt) 12.64 us/p 10.13 MB/s S/R 77.34% [1->0] 128 B .. 105.58 KP/s (52801 pkt) 9.47 us/p 13.51 MB/s S/R 76.98% [0->1] 256 B .. 58.60 KP/s (29301 pkt) 17.06 us/p 15.00 MB/s S/R 70.97% [1->0] 256 B .. 38.80 KP/s (19501 pkt) 25.78 us/p 9.93 MB/s S/R 84.98% [0->1] 512 B .. 112.55 KP/s (57401 pkt) 8.88 us/p 57.63 MB/s S/R 42.01% [1->0] 512 B .. 35.67 KP/s (18001 pkt) 28.04 us/p 18.26 MB/s S/R 82.95% [0->1] 1 KB .. 113.65 KP/s (56901 pkt) 8.80 us/p 116.37 MB/s S/R 33.59% [1->0] 1 KB .. 40.43 KP/s (20801 pkt) 24.73 us/p 41.40 MB/s R/S 93.24% [0->1] 1 KB .. 81.43 KP/s (40801 pkt) 12.28 us/p 118.89 MB/s S/R 54.90% [1->0] 1 KB .. 81.43 KP/s (40801 pkt) 12.28 us/p 118.89 MB/s R/S 0.65% (中略) -- Get MTU MTU[0] --- self node --- MTU[1] TS:1460 (0x5b4) OS:1300 (0x514) [OK] -- Get Context Attribute PMX Device Name: [composite] MTU TwoSidedComm 1460 (0x5b4) OneSidedComm 1300 (0x514) Alignment Mask: Address 0x0 Offset 0x0 [OK] -- Dump Context .. [OK] -- Simple message send and receive .. [OK] -- Simple message send and receive -- PMX_DESC_ANY .. [OK] -- Reverse-order Receiving .. [OK] -- Reverse-order Receiving -- PMX_DESC_ANY .. [OK] -- Reverse-order Sending .. [OK] -- Reverse-order Sending -- PMX_DESC_ANY .. [OK] -- Truncate Messages .. [OK] -- KeepSendDesc() and GetSendDescInfo() .. [OK] -- KeepSendDesc() and GetSendDescInfo() -- PMX_DESC_ANY .. [OK] -- IsSendDone() .. [OK] -- IsSendDone() -- PMX_DESC_ANY .. [OK] -- PM-V2 Compatibility .. [OK] Finalizing 11/Mar/09 18:23:01 #### TEST SUCCEEDED #### (後略) この後, もう少し message が続きますが, TEST SUCCEEDED が出て 終了すれば PMX/Ethernet 自体はうまく行っていることになります. >> symbol name が SCore6 のものに一致するのですが... >> すみません. >> include file の名前が違うようです. >> #include "pmx_etherhxb_client.h" >> にしてください. > > すみません、ヘッダファイルを間違えて > pm_ethernet_client.h > と指定していました。 いえ, ドキュメントが間違っていました. > ご指摘のヘッダファイルを使用してmakeしたところ、依存関係も解決しました。 > > しかし、networkをetherhxbと指定してMPIHelloWorldを実行したところ、 > 何も出力されず応答しない状態となってしまいました。 host 自体は生きていますでしょうか? dmesg では何かメッセージは出ていませんでしょうか? Kameyama Toyohisa From honda @ ace.ec.saga-u.ac.jp Wed Mar 11 19:07:00 2009 From: honda @ ace.ec.saga-u.ac.jp (Kohei HONDA) Date: Wed, 11 Mar 2009 19:07:00 +0900 Subject: [SCore-users-jp] =?ISO-2022-JP?B?UE1YLUV0aGVySFhCLURyaXZlcg==?= =?ISO-2022-JP?B?GyRCJE5ESTJDJEskRCQkJEYbKEI=?= In-Reply-To: <49B78759.5070008@pccluster.org> References: <20090310164917.ea00a8a4.honda@ace.ec.saga-u.ac.jp> <49B63E94.5030708@pccluster.org> <20090311131012.1bb1eeab.honda@ace.ec.saga-u.ac.jp> <49B7493C.1010104@pccluster.org> <20090311175852.6ed104ef.honda@ace.ec.saga-u.ac.jp> <49B78759.5070008@pccluster.org> Message-ID: <20090311190700.9869f033.honda@ace.ec.saga-u.ac.jp> 佐賀大学の本田です。 亀山様ご回答ありがとうございます。 > PMX/Ethernet か SCore-D か問題を切り分けたいので, > % scout -g machinefile -e pmxtest -iter 1 -network ethernet > をやってみてください. > 上記のコマンドを実行したところ、以下のように TEST SUCCEEDEDのメッセージを確認できました。 (前略) Finalizing 11/Mar/09 18:51:24 #### TEST SUCCEEDED #### (後略) また、これ以降のメッセージにもエラーと思わしき部分は見当たりませんでした。 > host 自体は生きていますでしょうか? > dmesg では何かメッセージは出ていませんでしょうか? host自体は生きています。 ctrl+Cを数回押すと停止します。 プログラムを実行してもdmesgのには特にメッセージは出ていないようです。 また、/var/log/messagesには以下のメッセージがあるのみでした。 Mar 11 19:03:45 scoreheadnode xinetd[8923]: START: shell pid=18049 from=192.168.0.254 Mar 11 19:03:45 scoreheadnode xinetd[8923]: EXIT: shell status=0 pid=18049 duration=0(sec) よろしくお願いします。 -- 佐賀大学大学院工学系研究科 博士前期課程電気電子工学専攻 計算機応用工学研究室 08534026 本田 晃平 honda @ ace.ec.saga-u.ac.jp From honda @ ace.ec.saga-u.ac.jp Fri Mar 13 12:14:50 2009 From: honda @ ace.ec.saga-u.ac.jp (Kohei HONDA) Date: Fri, 13 Mar 2009 12:14:50 +0900 Subject: [SCore-users-jp] =?ISO-2022-JP?B?UE1YLUV0aGVySFhCLURyaXZlcg==?= =?ISO-2022-JP?B?GyRCJE5ESTJDJEskRCQkJEYbKEI=?= In-Reply-To: <20090311190700.9869f033.honda@ace.ec.saga-u.ac.jp> References: <20090310164917.ea00a8a4.honda@ace.ec.saga-u.ac.jp> <49B63E94.5030708@pccluster.org> <20090311131012.1bb1eeab.honda@ace.ec.saga-u.ac.jp> <49B7493C.1010104@pccluster.org> <20090311175852.6ed104ef.honda@ace.ec.saga-u.ac.jp> <49B78759.5070008@pccluster.org> <20090311190700.9869f033.honda@ace.ec.saga-u.ac.jp> Message-ID: <20090313121450.1fd9fa51.honda@ace.ec.saga-u.ac.jp> 佐賀大学の本田です。 ご指摘頂いた部分を修正したpmx_ethernet_loader.koを使用して MPI版Hello_Worldを動作させることができました。 参考までに動作するに至った経緯を記します。 SCore7のインストールにはコンソーシアムからダウンロードした DVDイメージを使用し、RPMインストールを行っていました。 その後、変更を加えたpmx_ethernet_loader.koを HowToAdd-PMX-EtherHXB-Driver.txtや、 HowToBuild.txtに沿ってソースビルドしていました。 この状態では、 % scout -g machinefile -e pmxtest -iter 1 -network ethernet は成功するけれどもMPIプログラムは動作しないという状況でした。 その後、ヘッドノードに再度RPMインストールを施したところ MPIプログラムが動作しました。 計算ノードの追加は、RPMインストールを行った後に pmx_ethernet_loader.koを配布することで行えました。 ソースビルドのやり方がまずかったのかもしれません。 丁寧なご指導ありがとうございました。 -- 佐賀大学大学院工学系研究科 博士前期課程電気電子工学専攻 計算機応用工学研究室 08534026 本田 晃平 honda @ ace.ec.saga-u.ac.jp