From hattori @ st-systems.co.jp Mon Jun 5 16:42:17 2006 From: hattori @ st-systems.co.jp (Tomohide Hattori) Date: Mon, 05 Jun 2006 16:42:17 +0900 Subject: [SCore-users-jp] ULT: Exception Signal =?iso-2022-jp?b?GyRCJCw9UE5PJDUkbCRrGyhC?= =?iso-2022-jp?b?GyRCODYweCRLJEQkJCRGGyhC?= Message-ID: <20060605162656.D478.HATTORI@st-systems.co.jp> メーリングリストの皆様 サイエンス・テクノロジー・システムズ(株) の服部と申します。 お世話になります。 現在、SCore 5.8.3 をマルチユーザーモードで使用しているのですが、 <15> ULT: Exception Signal (11) を出力して Server Host のみプログラムが終了し、他の計算ノードではプログ ラムが実行されたまま停止してしまうという状況に陥りました。 プログラムの出力にはエラーは出力されず、結果の出力途中で停止してしまって いる状況です。 この "<15> ULT: Exception Signal (11)" が出力される原因にはどういったこ とが考えられるのでしょうか。 以下のメーリングリストのアーカイブを参照させていただいたのですが、原因解 明まではいたっておらず、皆様のお力添えをお願いしたいと思い、メーリングリ ストに投稿させていただいた次第です。 http://pccluster.org/pipermail/score-users-jp/2004-May/004736.html 以上よろしくお願いいたします。 服部知秀 サイエンス・テクノロジー・システムズ株式会社 共同研究センター Tel:03-5774-6833 Fax:03-5774-5180 E-mail: hattori @ st-systems.co.jp URL: http://www.st-systems.co.jp 〒150-0002 東京都渋谷区渋谷1-20-1 三進ビル4F From kameyama @ pccluster.org Mon Jun 5 17:53:18 2006 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Mon, 05 Jun 2006 17:53:18 +0900 Subject: =?ISO-2022-JP?B?UmU6IFtTQ29yZS11c2Vycy1qcF0gVUxUOiBFeGNlcHRpb24g?= =?ISO-2022-JP?B?U2lnbmFsIBskQiQsPVBOTyQ1JGwkazg2MHgkSyREJCQkRhsoQg==?= In-Reply-To: <20060605162656.D478.HATTORI@st-systems.co.jp> References: <20060605162656.D478.HATTORI@st-systems.co.jp> Message-ID: <4483F0FE.6060704@pccluster.org> 亀山です. Tomohide Hattori wrote: > 現在、SCore 5.8.3 をマルチユーザーモードで使用しているのですが、 > > <15> ULT: Exception Signal (11) > > を出力して Server Host のみプログラムが終了し、他の計算ノードではプログ > ラムが実行されたまま停止してしまうという状況に陥りました。 このメッセージは SCore-D の Syslog が出力される場所に出ているのですね? > プログラムの出力にはエラーは出力されず、結果の出力途中で停止してしまって > いる状況です。 > > この "<15> ULT: Exception Signal (11)" が出力される原因にはどういったこ > とが考えられるのでしょうか。 SCore-D の syslog で出ているとすると, そのホストの SCore-D が死んでいる 可能性が高いです. そのホストだけ, SCore-D のバイナリが違うとか, SCore-D のバグとか... > 以下のメーリングリストのアーカイブを参照させていただいたのですが、原因解 > 明まではいたっておらず、皆様のお力添えをお願いしたいと思い、メーリングリ > ストに投稿させていただいた次第です。 > > http://pccluster.org/pipermail/score-users-jp/2004-May/004736.html この mail の reply でやろうとしたのは, 環境変数 DISPLAY を設定せず, scored の代わりに scored_dev で 立ち上げることによって, scored がどこで落ちたかを調べる ことでした. Kameyama Toyohisa From hattori @ st-systems.co.jp Mon Jun 5 21:15:19 2006 From: hattori @ st-systems.co.jp (Tomohide Hattori) Date: Mon, 05 Jun 2006 21:15:19 +0900 Subject: [SCore-users-jp] ULT: Exception Signal =?ISO-2022-JP?B?GyRCJCw9UE5PJDUkbCRrODYweCRLJEQkJBsoQg==?= =?ISO-2022-JP?B?GyRCJEYbKEI=?= In-Reply-To: <4483F0FE.6060704@pccluster.org> References: <20060605162656.D478.HATTORI@st-systems.co.jp> <4483F0FE.6060704@pccluster.org> Message-ID: <20060605205254.9BC9.HATTORI@st-systems.co.jp> 亀山様 お世話になります。STS 服部でございます。 > このメッセージは SCore-D の Syslog が出力される場所に出ているのですね? そうです。scored を起動した window の最下行に "<15> ULT: Exception Signal (11)" と出力されます。 > そのホストだけ, SCore-D のバイナリが違うとか, SCore-D のバグとか... すべての計算機のハードウェア/OS(RedHat9, kernel 2.4.21SCORE) は同じで、 サーバーホストでコンパイルした SCore 5.8.3 を計算ノードにインストールし たので、バイナリのバージョンについては問題ないと思いますし、10000分はプ ログラムが実行され続けたのでバイナリについては大丈夫だと思います。 ご指摘いただいた "環境変数 DISPLAY を設定せず, scored の代わりに scored_dev" を起動して scored がどこで落ちているかを調査してみます。 ありがとうございました。 > 亀山です. > > Tomohide Hattori wrote: > > 現在、SCore 5.8.3 をマルチユーザーモードで使用しているのですが、 > > > > <15> ULT: Exception Signal (11) > > > > を出力して Server Host のみプログラムが終了し、他の計算ノードではプログ > > ラムが実行されたまま停止してしまうという状況に陥りました。 > > このメッセージは SCore-D の Syslog が出力される場所に出ているのですね? > > > プログラムの出力にはエラーは出力されず、結果の出力途中で停止してしまって > > いる状況です。 > > > > この "<15> ULT: Exception Signal (11)" が出力される原因にはどういったこ > > とが考えられるのでしょうか。 > > SCore-D の syslog で出ているとすると, そのホストの SCore-D が死んでいる > 可能性が高いです. > そのホストだけ, SCore-D のバイナリが違うとか, SCore-D のバグとか... > > > 以下のメーリングリストのアーカイブを参照させていただいたのですが、原因解 > > 明まではいたっておらず、皆様のお力添えをお願いしたいと思い、メーリングリ > > ストに投稿させていただいた次第です。 > > > > http://pccluster.org/pipermail/score-users-jp/2004-May/004736.html > > この mail の reply でやろうとしたのは, > 環境変数 DISPLAY を設定せず, scored の代わりに scored_dev で > 立ち上げることによって, scored がどこで落ちたかを調べる > ことでした. > > Kameyama Toyohisa 服部知秀 サイエンス・テクノロジー・システムズ株式会社 共同研究センター Tel:03-5774-6833 Fax:03-5774-5180 E-mail: hattori @ st-systems.co.jp URL: http://www.st-systems.co.jp 〒150-0002 東京都渋谷区渋谷1-20-1 三進ビル4F From kei_hata @ hotmail.com Tue Jun 6 03:48:41 2006 From: kei_hata @ hotmail.com (hata kei) Date: Tue, 06 Jun 2006 03:48:41 +0900 Subject: [SCore-users-jp] Traffic problem Message-ID: 畑田です。 SCore 5.8.3 とFedora core 3 を 2 x Dual Core AMD Opteron(tm) Processor 275 + 2 x 2GB ( memory ) にインストールしました。dual core なのでCPUは4つです。 問題は、kernel panic が発生し廻りのネットワークに大きな負荷を生じさせたよう です。 /var/log/message を見ると、以下の様になっており/class/pm_memory/pmm と /class/pm_shmem/pmshmem に沢山エラーがでているようです。 以前同じようにインストールした Intel Xeon ( Hyper thread 停止 ) は問題無く稼 動しています。SCore 又はFedora core 3はdual coreには安定ではないのでしょうか ? よろしくご教授お願いします。 ######################################################### Jun 5 12:12:58 sm1 lm_sensors: Starting lm_sensors: Jun 5 12:13:01 sm1 lm_sensors: ESC[60G[ Jun 5 12:13:01 sm1 lm_sensors: Jun 5 12:13:01 sm1 rc: Starting lm_sensors: succeeded Jun 5 12:13:01 sm1 ypserv: Setting NIS domain name strumat: succeeded Jun 5 12:13:01 sm1 ypserv: ypserv startup succeeded Jun 5 12:13:01 sm1 ypserv[3190]: WARNING: no securenets file found! Jun 5 12:13:01 sm1 ypserv[3190]: Support for SLP (line 20) is not compiled in. Jun 5 12:13:01 sm1 ypserv[3190]: Support for SLP (line 22) is not compiled in. Jun 5 12:13:01 sm1 rpc.ypxfrd[3201]: WARNING: no securenets file found! Jun 5 12:13:01 sm1 rpc.ypxfrd[3201]: Support for SLP (line 20) is not compiled in. Jun 5 12:13:01 sm1 rpc.ypxfrd[3201]: Support for SLP (line 22) is not compiled in. Jun 5 12:13:01 sm1 ypxfrd: rpc.ypxfrd startup succeeded Jun 5 12:13:03 sm1 wait_for_sysfs[2960]: either wait_for_sysfs (udev 039) needs an update to handle the device '/class/i2c-dev' properly (class specific file unavailable) or the sysfs-support of your device's driver needs to be fixed, please report to Jun 5 12:13:03 sm1 wait_for_sysfs[2939]: either wait_for_sysfs (udev 039) needs an update to handle the device '/class/i2c-adapter' properly (no device symlink) or the sysfs-support of your device's driver needs to be fixed, please report to Jun 5 12:13:21 sm1 ypbind: ypbind startup succeeded Jun 5 12:13:51 sm1 ypbind: bound to NIS server sm1.science.unitn.it Jun 5 12:13:51 sm1 ypserv[3190]: refused connect from 192.168.1.1:943 to procedure ypproc_all (strumat,auto.master;-4) Jun 5 12:13:51 sm1 autofs: automount startup succeeded Jun 5 12:13:52 sm1 mDNSResponder: startup succeeded Jun 5 12:13:52 sm1 smartd[3362]: smartd version 5.33 [i386-redhat-linux-gnu] Copyright (C) 2002-4 Bruce Allen Jun 5 12:13:52 sm1 smartd[3362]: Home page is http://smartmontools.sourceforge.net/ Jun 5 12:13:52 sm1 smartd[3362]: Opened configuration file /etc/smartd.conf Jun 5 12:13:52 sm1 smartd[3362]: Configuration file /etc/smartd.conf parsed. Jun 5 12:13:52 sm1 smartd[3362]: Device: /dev/hda, opened Jun 5 12:13:52 sm1 smartd[3362]: Device: /dev/hda, not found in smartd database. Jun 5 12:13:53 sm1 smartd[3362]: Device: /dev/hda, is SMART capable. Adding to "monitor" list. Jun 5 12:13:53 sm1 smartd[3362]: Device: /dev/hdc, opened Jun 5 12:13:53 sm1 smartd[3362]: Device: /dev/hdc, not found in smartd database. Jun 5 12:13:53 sm1 smartd[3362]: Device: /dev/hdc, is SMART capable. Adding to "monitor" list. Jun 5 12:13:53 sm1 smartd[3362]: Monitoring 2 ATA and 0 SCSI devices Jun 5 12:13:53 sm1 smartd[3364]: smartd has fork()ed into background mode. New PID=3364. Jun 5 12:13:53 sm1 smartd: smartd startup succeeded Jun 5 12:13:53 sm1 acpid: acpid startup succeeded Jun 5 12:13:54 sm1 rc: Starting hpoj: succeeded Jun 5 12:13:57 sm1 kernel: lp: driver loaded but no devices found Jun 5 12:14:02 sm1 wait_for_sysfs[3428]: either wait_for_sysfs (udev 039) needs an update to handle the device '/class/printer' properly (class specific file unavailable) or the sysfs-support of your device's driver needs to be fixed, please report to Jun 5 12:14:19 sm1 cups: cupsd startup succeeded . . . Jun 5 12:20:27 sm1 pm_ethernet: Starting PM/Ethernet: Jun 5 12:20:27 sm1 kernel: pm_memory:PM memory support Jun 5 12:20:27 sm1 kernel: pm_memory:Register pm_memory as major(123) Jun 5 12:20:28 sm1 kernel: PM/Ethernet: "$Id: pm_ethernet_dev.c,v 1.14 2005/10/10 04:49:13 s-sumi Exp $" Jun 5 12:20:28 sm1 kernel: PM/Ethernet: register pm-ethernet device as major(122) Jun 5 12:20:33 sm1 wait_for_sysfs[3880]: either wait_for_sysfs (udev 039) needs an update to handle the device '/class/pm_memory' properly (class specific file unavailable) or the sysfs-support of your device's driver needs to be fixed, please report to Jun 5 12:20:33 sm1 wait_for_sysfs[3881]: either wait_for_sysfs (udev 039) needs an update to handle the device '/class/pm_memory/pmm0' properly (no device symlink) or the sysfs-support of your device's driver needs to be fixed, please report to Jun 5 12:20:33 sm1 wait_for_sysfs[3950]: either wait_for_sysfs (udev 039) needs an update to handle the device '/class/pm_memory/pmm33' properly (no device symlink) or the sysfs-support of your device's driver needs to be fixed, please report to Jun 5 12:20:33 sm1 wait_for_sysfs[3892]: either wait_for_sysfs (udev 039) needs an update to handle the device '/class/pm_memory/pmm5' properly (no device symlink) or the sysfs-support of your device's driver needs to be fixed, please report to . . . Jun 5 12:20:40 sm1 pm_ethernet: device: eth1 Jun 5 12:20:40 sm1 kernel: pm-ethernet0: 16 contexts using 4096KB MEM, maxunit=4, maxnodes=512, mtu=1468, eth1. Jun 5 12:20:40 sm1 kernel: etherpm0: Interrupt Reaping on eth1, irq 177 Jun 5 12:20:40 sm1 rc: Starting pm_ethernet: succeeded Jun 5 12:20:40 sm1 kernel: pm_shmem:pmshmem: version = $Id: pm_shmem.c,v 1.4 2005/09/21 08:15:04 hori Exp $ Jun 5 12:20:40 sm1 kernel: pm_shmem:pmshmem_init: register pm_shmem as major(124) Jun 5 12:20:40 sm1 pm_shmem: Starting PM/shmem: Jun 5 12:20:41 sm1 rc: Starting pm_shmem: succeeded Jun 5 12:20:42 sm1 xfs: xfs startup succeeded Jun 5 12:20:42 sm1 xfs[10129]: ignoring font path element /usr/X11R6/lib/X11/fonts/Speedo (unreadable) Jun 5 12:20:42 sm1 anacron: anacron startup succeeded Jun 5 12:20:43 sm1 atd: atd startup succeeded Jun 5 12:20:43 sm1 messagebus: messagebus startup succeeded Jun 5 12:20:44 sm1 scbcast: Starting scbcast (syslog) services: Jun 5 12:20:44 sm1 su(pam_unix)[10177]: session opened for user nobody by (uid=0) Jun 5 12:20:44 sm1 scbcast: scbcast started Jun 5 12:20:44 sm1 su(pam_unix)[10177]: session closed for user nobody Jun 5 12:20:44 sm1 scbcast: succeeded Jun 5 12:20:44 sm1 scbcast: ESC[60G[ Jun 5 12:20:44 sm1 scbcast: Starting scbcast (sysmon) services: Jun 5 12:20:44 sm1 su(pam_unix)[10209]: session opened for user nobody by (uid=0) Jun 5 12:20:44 sm1 scbcast: scbcast started Jun 5 12:20:44 sm1 su(pam_unix)[10209]: session closed for user nobody Jun 5 12:20:44 sm1 scbcast: succeeded Jun 5 12:20:44 sm1 scbcast: ESC[60G[ Jun 5 12:20:44 sm1 scbcast: Jun 5 12:20:44 sm1 rc: Starting scbcast: succeeded Jun 5 12:20:44 sm1 scoreboard: Starting scoreboard services: Jun 5 12:20:44 sm1 su(pam_unix)[10249]: session opened for user nobody by (uid=0) Jun 5 12:20:45 sm1 su(pam_unix)[10249]: session closed for user nobody Jun 5 12:20:45 sm1 scoreboard: succeeded Jun 5 12:20:45 sm1 scoreboard: ESC[60G Jun 5 12:20:45 sm1 scoreboard: Jun 5 12:20:45 sm1 rc: Starting scoreboard: succeeded Jun 5 12:20:45 sm1 wait_for_sysfs[9036]: either wait_for_sysfs (udev 039) needs an update to handle the device '/class/pm_shmem' properly (class specific file unavailable) or the sysfs-support of your device's driver needs to be fixed, please report to Jun 5 12:20:45 sm1 cups-config-daemon: cups-config-daemon startup succeeded Jun 5 12:20:46 sm1 haldaemon: haldaemon startup succeeded Jun 5 12:20:46 sm1 msgbserv: Starting Compute Host Lock services: Jun 5 12:20:46 sm1 fstab-sync[10335]: removed all generated mount points Jun 5 12:20:46 sm1 su(pam_unix)[10334]: session opened for user nobody by (uid=0) Jun 5 12:20:47 sm1 wait_for_sysfs[9069]: either wait_for_sysfs (udev 039) needs an update to handle the device '/class/pm_shmem/pmshmem12' properly (no device symlink) or the sysfs-support of your device's driver needs to be fixed, please report to Jun 5 12:20:47 sm1 wait_for_sysfs[9103]: either wait_for_sysfs (udev 039) needs an update to handle the device '/class/pm_shmem/pmshmem27' properly (no device symlink) or the sysfs-support of your device's driver needs to be fixed, please report to Jun 5 12:20:47 sm1 wait_for_sysfs[9079]: either wait_for_sysfs (udev 039) needs an update to handle the device '/class/pm_shmem/pmshmem17' properly (no device symlink) or the sysfs-support of your device's driver needs to be fixed, please report to Jun 5 12:20:47 sm1 wait_for_sysfs[9082]: either wait_for_sysfs (udev 039) needs an update to handle the device '/class/pm_shmem/pmshmem18' properly (no device symlink) or the sysfs-support of your device's driver needs to be fixed, please report to Jun 5 12:20:47 sm1 wait_for_sysfs[9227]: either wait_for_sysfs (udev 039) needs an update to handle the device '/class/pm_shmem/pmshmem65' properly (no device symlink) or the sysfs-support of your device's driver needs to be fixed, please report to Jun 5 12:20:47 sm1 wait_for_sysfs[9037]: either wait_for_sysfs (udev 039) needs an update to handle the device '/class/pm_shmem/pmshmem0' properly (no device symlink) or the sysfs-support of your device's driver needs to be fixed, please report to . . . _________________________________________________________________ MSN アラートで欲しい情報を必要な時に逃さずキャッチ! http://alerts.msn.co.jp/ From kameyama @ pccluster.org Tue Jun 6 11:55:36 2006 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Tue, 06 Jun 2006 11:55:36 +0900 Subject: [SCore-users-jp] Traffic problem In-Reply-To: References: Message-ID: <4484EEA8.6070809@pccluster.org> 亀山です. hata kei wrote: > > /var/log/message を見ると、以下の様になっており/class/pm_memory/pmm と > > /class/pm_shmem/pmshmem に沢山エラーがでているようです。 (中略) > > Jun 5 12:13:03 sm1 wait_for_sysfs[2960]: either wait_for_sysfs (udev > > 039) needs an update to handle the device '/class/i2c-dev' properly > > (class specific file unavailable) or the sysfs-support of your device's > > driver needs to be fixed, please report to > > なんか sysfs 回りがおかしいみたいですが... sysfs は動いているでしょうか? 1. /proc/filesystems に sysfs があるでしょうか? 2. mount コマンドを実行して /sys に sysfs が mount されているでしょうか? % mount ... sysfs on /sys type sysfs (rw) ... Kameyama Toyohisa From hiroyuki.yamano @ amd.com Fri Jun 16 18:31:05 2006 From: hiroyuki.yamano @ amd.com (Yamano, Hiroyuki) Date: Fri, 16 Jun 2006 04:31:05 -0500 Subject: [SCore-users-jp] =?iso-2022-jp?b?QU1EIENsdXN0ZXIgQ29uZmVyZW5j?= =?iso-2022-jp?b?ZSAyMDA2IBskQiROJDQwRkZiGyhC?= Message-ID: <6B8193090BA8AC42A33AF3AE5617BF510220A897@safsexmb1.amd.com> メーリングリストのみなさま 直前のご案内で大変恐縮です。 日本AMDでは来週6/20(火)に最新のプロセッサならびに クラスタテクノロジ情報を提供する、HPCユーザイベントの 開催を予定しております。 無料でご登録いただけますので、スケジュールご調整の上、 ぜひともご参加いただきたくご案内申し上げます。 日本AMD 山野 -- ====================================================================== 「AMD Opteron クラスタ・カンファレンス2006」 開催のご案内 2006年6月20日(火)in ヒルトン東京 http://www.amd.com/jp-ja/Corporate/AboutAMD/0,,51_52_116_7731,00.html ====================================================================== 拝啓 貴社益々ご清栄のこととお慶び申し上げます。 平素は格別のお引き立てを賜り厚く御礼申し上げます。 さて日本AMD株式会社では、昨年に引き続き、 『AMD Opteron クラスタ・カンファレンス2006』を開催いたします。 “新世代Opteronプロセッサが加速するHPCクラスタ環境”をテーマに 近々発表予定の新世代OpteronプロセッサとAMDが提唱する“ワット性能” のご紹介をはじめ、パートナー様各社によるAMD64テクノロジ最適化手法 やHPCマーケットにおける取り組みのご紹介、ならびに各社提供の製品・ ソリューションの展示を行う予定です。 また本年は基調講演として、東京工業大学 松岡教授より日本最速の コンピュータとなる、TSUBAME (Tokyo-tech Supercomputer and UBiquitously Accessible Mass-storage Environment ) クラスタ・システムについてお話し頂きます。 カンファレンスの後には懇親会を行い、講演者との自由な意見交換の 時間も設けております。 ご多用中とは存じますが、是非本カンファレンス・懇親会にご出席いただけますよう、 お願い申し上げます。 <開催概要> 日時 : 6月20日(火)13:30 (受付開始:13:00) 場所 : ヒルトン東京 4F 「菊の間」 http://hiltonjapan.ehotel-reserve.com/Japan/HiltonTokyo/Access/Access_Index.asp 定員: 180名様 (事前登録制) 主催: 日本AMD株式会社 参加費: 無料 協賛: サン・マイクロシステムズ株式会社、株式会社ソフトウェアクレイドル 日商エレクトロニクス株式会社、日本ヒューレッド・パッカード株式会社 ノベル株式会社、ビジュアルテクノロジー株式会社、プロサイド株式会社 マイクロソフト株式会社、株式会社リオワークス、クレイ・ジャパン・インク(順不同) ※お申し込みはこちらから http://www.amd.com/jp-ja/Corporate/AboutAMD/0,,51_52_116_7731,00.html ---------------------------------------------------------------------- 今後このようなメールを希望されない方は、大変お手数ですが、「送付不要」 と明記の上、下記E-mail宛にご返信いただけますようお願いいたします。 Mail to : mss.japan @ amd.com ---------------------------------------------------------------------- ====================================================================== <お問合せ先> AMD Opteron クラスタ・カンファレンス2006事務局 E-Mail: amdcc @ seminar.jp (お問合せへの対応時間は、平日10:00〜17:00とさせていただきます。) ======================================================================