From shibata.hiroaki @ jp.fujitsu.com Mon May 23 09:25:01 2011 From: shibata.hiroaki @ jp.fujitsu.com (Hiroaki Shibata) Date: Mon, 23 May 2011 09:25:01 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU3LjAuMRskQiRHJE48QjlUGyhC?= =?iso-2022-jp?b?GyRCO34kSzdXOzslNSE8JVAkLDBbPm89Kk47JDkkazg9GyhC?= =?iso-2022-jp?b?GyRCPl0kSyREJCQkRhsoQg==?= Message-ID: <34CC18DFDB0609shibata.hiroaki@jp.fujitsu.com> 富士通九州システムズ)柴田です。 お世話になっております。 SCore7.0.1を使用してサンプルのcpiプログラムを実行した場合に 時々、計算サーバが停止する現象が発生しており、調査を実施して います。 状況としては、計算サーバのうちの一台が突然無反応になり、 キーボードのCapLockやScrollLockが点滅し、キーボード、ssh 等が全て受け付けられません。 kernel panic のように思いますが、コンソール上には何も表示 されておらず、電源ボタン長押しで再起動するしかない状況に なります。 OSはSCore7.0.1のDVDからインストールしたCentOS5.5で、SCore はrpmインストールしております。 並列数を64以上にすると起こりやすいようですが、100%起きるわ けではなく、5〜6回に1回程度の頻度で発生します。 本MLの過去ログ等からは事例がなかったのですが、何か報告事例 等がございませんでしょうか。 また、どのように原因調査をすればいいかのアドバイスがいただけ ましたら幸いでございます。 お忙しい中恐れ入りますが、よろしくお願いいたします。 --- 柴田 裕昭(shibata.hiroaki @ jp.fujitsu.com) From kameyama @ pccluster.org Mon May 23 11:48:09 2011 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Mon, 23 May 2011 11:48:09 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU3LjAuMRskQiRHJE48QjlUGyhC?= =?iso-2022-jp?b?GyRCO34kSzdXOzslNSE8JVAkLDBbPm89Kk47JDkkazg9Pl0kSyREGyhC?= =?iso-2022-jp?b?GyRCJCQkRhsoQg==?= In-Reply-To: <34CC18DFDB0609shibata.hiroaki@jp.fujitsu.com> References: <34CC18DFDB0609shibata.hiroaki@jp.fujitsu.com> Message-ID: <4DD9CAE9.5040406@pccluster.org> 亀山です. (2011年05月23日 09:25), Hiroaki Shibata wrote: > SCore7.0.1を使用してサンプルのcpiプログラムを実行した場合に > 時々、計算サーバが停止する現象が発生しており、調査を実施して > います。 PMX/Ethernet ですよね? 直した記憶だけはあるのですが... > 状況としては、計算サーバのうちの一台が突然無反応になり、 > キーボードのCapLockやScrollLockが点滅し、キーボード、ssh > 等が全て受け付けられません。 > kernel panic のように思いますが、コンソール上には何も表示 > されておらず、電源ボタン長押しで再起動するしかない状況に > なります。 多分, kdump の設定を行えば, どこで落ちたかはわかると 思います. http://d.hatena.ne.jp/ymko/20100430/1272643166 あたりが参考になると思います. Kameyama Toyohisa From shibata.hiroaki @ jp.fujitsu.com Mon May 23 12:21:17 2011 From: shibata.hiroaki @ jp.fujitsu.com (Hiroaki Shibata) Date: Mon, 23 May 2011 12:21:17 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU3LjAuMRskQiRHJE48QjlUGyhC?= =?iso-2022-jp?b?GyRCO34kSzdXOzslNSE8JVAkLDBbPm89Kk47JDkkazg9GyhC?= =?iso-2022-jp?b?GyRCPl0kSyREJCQkRhsoQg==?= In-Reply-To: <4DD9CAE9.5040406@pccluster.org> References: <34CC18DFDB0609shibata.hiroaki@jp.fujitsu.com> <4DD9CAE9.5040406@pccluster.org> Message-ID: <39CC18F87AB7B9shibata.hiroaki@jp.fujitsu.com> 亀山様 柴田です。 ご回答いただきありがとうございます。 >PMX/Ethernet ですよね? >直した記憶だけはあるのですが... はい。ethernetを指定して実行しております。 SCore7.0.1にパッチ等をあてる必要等があるようでしたら お知らせくださいますようお願いいたします。 >多分, kdump の設定を行えば, どこで落ちたかはわかると >思います. > http://d.hatena.ne.jp/ymko/20100430/1272643166 >あたりが参考になると思います. 承知いたしました。 まずはkdumpの設定をし、落ちた場所の特定を実施するように いたします。 以上、よろしくお願いいたします。 >亀山です. > >(2011年05月23日 09:25), Hiroaki Shibata wrote: >> SCore7.0.1を使用してサンプルのcpiプログラムを実行した場合に >> 時々、計算サーバが停止する現象が発生しており、調査を実施して >> います。 > >PMX/Ethernet ですよね? >直した記憶だけはあるのですが... > >> 状況としては、計算サーバのうちの一台が突然無反応になり、 >> キーボードのCapLockやScrollLockが点滅し、キーボード、ssh >> 等が全て受け付けられません。 >> kernel panic のように思いますが、コンソール上には何も表示 >> されておらず、電源ボタン長押しで再起動するしかない状況に >> なります。 > >多分, kdump の設定を行えば, どこで落ちたかはわかると >思います. > http://d.hatena.ne.jp/ymko/20100430/1272643166 >あたりが参考になると思います. > >Kameyama Toyohisa 柴田 裕昭(shibata.hiroaki @ jp.fujitsu.com) From shibata.hiroaki @ jp.fujitsu.com Fri May 27 15:11:28 2011 From: shibata.hiroaki @ jp.fujitsu.com (Hiroaki Shibata) Date: Fri, 27 May 2011 15:11:28 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU3LjAuMRskQiRHJE48QjlUGyhC?= =?iso-2022-jp?b?GyRCO34kSzdXOzslNSE8JVAkLDBbPm89Kk47JDkkazg9GyhC?= =?iso-2022-jp?b?GyRCPl0kSyREJCQkRhsoQg==?= In-Reply-To: <39CC18F87AB7B9shibata.hiroaki@jp.fujitsu.com> References: <34CC18DFDB0609shibata.hiroaki@jp.fujitsu.com> <4DD9CAE9.5040406@pccluster.org> <39CC18F87AB7B9shibata.hiroaki@jp.fujitsu.com> Message-ID: <5BCC1C34EA6539shibata.hiroaki@jp.fujitsu.com> 亀山様 柴田です。 kdumpの設定をいたしまして、現象を再現させることができました。 採取されたdumpについてcrashで採取することができた情報 は以下のようになりました。 --------------------------------------------------------- crash /boot/System.map-2.6.18-194.el5 /usr/lib/debug/lib/modules/2.6.18-194.el5/ vmlinux /var/crash/2011-05-26-00\:06/vmcore crash 4.1.2-4.el5.centos.1 Copyright (C) 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009 Red Hat, Inc. Copyright (C) 2004, 2005, 2006 IBM Corporation Copyright (C) 1999-2006 Hewlett-Packard Co Copyright (C) 2005, 2006 Fujitsu Limited Copyright (C) 2006, 2007 VA Linux Systems Japan K.K. Copyright (C) 2005 NEC Corporation Copyright (C) 1999, 2002, 2007 Silicon Graphics, Inc. Copyright (C) 1999, 2000, 2001, 2002 Mission Critical Linux, Inc. This program is free software, covered by the GNU General Public License, and you are welcome to change it and/or distribute copies of it under certain conditions. Enter "help copying" to see the conditions. This program has absolutely no warranty. Enter "help warranty" for details. GNU gdb 6.1 Copyright 2004 Free Software Foundation, Inc. GDB is free software, covered by the GNU General Public License, and you are welcome to change it and/or distribute copies of it under certain conditions. Type "show copying" to see the conditions. There is absolutely no warranty for GDB. Type "show warranty" for details. This GDB was configured as "x86_64-unknown-linux-gnu"... SYSTEM MAP: /boot/System.map-2.6.18-194.el5 DEBUG KERNEL: /usr/lib/debug/lib/modules/2.6.18-194.el5/vmlinux (2.6.18-194.el5) DUMPFILE: /var/crash/2011-05-26-00:06/vmcore CPUS: 2 DATE: Thu May 26 00:05:47 2011 UPTIME: 04:47:41 LOAD AVERAGE: 0.00, 0.00, 0.01 TASKS: 122 NODENAME: pc***** RELEASE: 2.6.18-194.el5 VERSION: #1 SMP Fri Apr 2 14:58:14 EDT 2010 MACHINE: x86_64 (3059 Mhz) MEMORY: 3.9 GB PANIC: "Oops: 0000 [1] SMP " (check log for details) PID: 19376 COMMAND: "cpi" TASK: ffff810094dd80c0 [THREAD_INFO: ffff8100a9bde000] CPU: 0 STATE: TASK_RUNNING (PANIC) crash> bt PID: 19376 TASK: ffff810094dd80c0 CPU: 0 COMMAND: "cpi" #0 [ffff8100a9bdfa40] crash_kexec at ffffffff800aeb6b #1 [ffff8100a9bdfb00] __die at ffffffff80066157 #2 [ffff8100a9bdfb40] do_page_fault at ffffffff80067dd7 #3 [ffff8100a9bdfc30] error_exit at ffffffff8005ede9 [exception RIP: find_epm_context+122] RIP: ffffffff8869707a RSP: ffff8100a9bdfce0 RFLAGS: 00010206 RAX: 0000000000000000 RBX: 0000000000000010 RCX: 0000000000000000 RDX: 0000000000000000 RSI: ffff8100b7069000 RDI: 0000000000000000 RBP: ffff81011b079000 R8: ffffffffffffffff R9: fefefeff2f677364 R10: 0000000000000000 R11: 0000000000000246 R12: 00007fff5710e480 R13: 000000000000000a R14: ffff8100cde84d80 R15: 00002b76a76b5000 ORIG_RAX: ffffffffffffffff CS: 0010 SS: 0018 #4 [ffff8100a9bdfcf0] pm_ethernet_ioctl at ffffffff8869ac4d #5 [ffff8100a9bdfeb0] do_ioctl at ffffffff800424bd #6 [ffff8100a9bdfed0] vfs_ioctl at ffffffff800304d6 #7 [ffff8100a9bdff40] sys_ioctl at ffffffff8004cbb7 #8 [ffff8100a9bdff80] system_call at ffffffff8005e116 RIP: 0000003001ecc897 RSP: 00007fff5710dc18 RFLAGS: 00010202 RAX: 0000000000000010 RBX: ffffffff8005e116 RCX: 0000000000000000 RDX: 00007fff5710e480 RSI: 00000000403c7001 RDI: 000000000000000a RBP: 0000000000df1a80 R8: fefefefefefefeff R9: fefefeff2f677364 R10: 0000000000000000 R11: 0000000000000246 R12: 0000000000e0b270 R13: 0000000000e0b550 R14: 0000000000000000 R15: 00007fff5710e480 ORIG_RAX: 0000000000000010 CS: 0033 SS: 002b crash> --------------------------------------------------------- 何かお気づきの点がございましたらお知らせくださいますよう お願いいたします。 以上、よろしくお願いいたします。 >亀山様 > >柴田です。 >ご回答いただきありがとうございます。 > >>PMX/Ethernet ですよね? >>直した記憶だけはあるのですが... > >はい。ethernetを指定して実行しております。 >SCore7.0.1にパッチ等をあてる必要等があるようでしたら >お知らせくださいますようお願いいたします。 > >>多分, kdump の設定を行えば, どこで落ちたかはわかると >>思います. >> http://d.hatena.ne.jp/ymko/20100430/1272643166 >>あたりが参考になると思います. > >承知いたしました。 >まずはkdumpの設定をし、落ちた場所の特定を実施するように >いたします。 > > >以上、よろしくお願いいたします。 > >>亀山です. >> >>(2011年05月23日 09:25), Hiroaki Shibata wrote: >>> SCore7.0.1を使用してサンプルのcpiプログラムを実行した場合に >>> 時々、計算サーバが停止する現象が発生しており、調査を実施して >>> います。 >> >>PMX/Ethernet ですよね? >>直した記憶だけはあるのですが... >> >>> 状況としては、計算サーバのうちの一台が突然無反応になり、 >>> キーボードのCapLockやScrollLockが点滅し、キーボード、ssh >>> 等が全て受け付けられません。 >>> kernel panic のように思いますが、コンソール上には何も表示 >>> されておらず、電源ボタン長押しで再起動するしかない状況に >>> なります。 >> >>多分, kdump の設定を行えば, どこで落ちたかはわかると >>思います. >> http://d.hatena.ne.jp/ymko/20100430/1272643166 >>あたりが参考になると思います. >> >>Kameyama Toyohisa > >柴田 裕昭(shibata.hiroaki @ jp.fujitsu.com) > >_______________________________________________ >SCore-users-jp mailing list >SCore-users-jp @ pccluster.org >http://www.pccluster.org/mailman/listinfo/score-users-jp -- 柴田 裕昭(shibata.hiroaki @ jp.fujitsu.com) From kameyama @ pccluster.org Fri May 27 17:19:43 2011 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Fri, 27 May 2011 17:19:43 +0900 Subject: [SCore-users-jp] =?iso-2022-jp?b?U0NvcmU3LjAuMRskQiRHJE48QjlUGyhC?= =?iso-2022-jp?b?GyRCO34kSzdXOzslNSE8JVAkLDBbPm89Kk47JDkkazg9Pl0kSyREGyhC?= =?iso-2022-jp?b?GyRCJCQkRhsoQg==?= In-Reply-To: <5BCC1C34EA6539shibata.hiroaki@jp.fujitsu.com> References: <34CC18DFDB0609shibata.hiroaki@jp.fujitsu.com> <4DD9CAE9.5040406@pccluster.org> <39CC18F87AB7B9shibata.hiroaki@jp.fujitsu.com> <5BCC1C34EA6539shibata.hiroaki@jp.fujitsu.com> Message-ID: <4DDF5E9F.60004@pccluster.org> 亀山です. (2011年05月27日 15:11), Hiroaki Shibata wrote: > kdumpの設定をいたしまして、現象を再現させることができました。 > > 採取されたdumpについてcrashで採取することができた情報 > は以下のようになりました。 ありがとうございます. ちょっと, 添付ファイルの pmx_ethernet_main.c で 試してみていただけないでしょうか? 多分, /opt/score/modules/ethernet/linux2_6/ にこのデバイスドライバのソースがあります. ここの pmx_ethernet_main.c を添付のソースと入れ替えてください. $ smake distclean $ smake で make できます. kernel module は x86_64-rhel5-linux2_6 @ 2.6.18-194.el5/pmx_ethernet.ko にできます. これを計算ホストの /lib/modules/2.6.18-194.el5/extra/score+pm/pmx_ethernet.ko と置き換えて reboot するか? # /sbin/rmmod pmx_ethernet # /sbin/modprobe pmx_ethernet を実行します. コードの修正は > [exception RIP: find_epm_context+122] この関数の検索方法を変更しただけです. Kameyama Toyohisa -------------- next part -------------- テキスト形式以外の添付ファイルを保管しました... ファイル名: pmx_ethernet_main.c 型: text/x-csrc サイズ: 141279 バイト 説明: 無し URL: