[SCore-users-jp] SCore7.0.1での実行時に計算サーバが異常終了する現象について
Hiroaki Shibata
shibata.hiroaki @ jp.fujitsu.com
2011年 5月 27日 (金) 15:11:28 JST
亀山様
柴田です。
kdumpの設定をいたしまして、現象を再現させることができました。
採取されたdumpについてcrashで採取することができた情報
は以下のようになりました。
---------------------------------------------------------
crash /boot/System.map-2.6.18-194.el5 /usr/lib/debug/lib/modules/2.6.18-194.el5/
vmlinux /var/crash/2011-05-26-00\:06/vmcore
crash 4.1.2-4.el5.centos.1
Copyright (C) 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009 Red Hat, Inc.
Copyright (C) 2004, 2005, 2006 IBM Corporation
Copyright (C) 1999-2006 Hewlett-Packard Co
Copyright (C) 2005, 2006 Fujitsu Limited
Copyright (C) 2006, 2007 VA Linux Systems Japan K.K.
Copyright (C) 2005 NEC Corporation
Copyright (C) 1999, 2002, 2007 Silicon Graphics, Inc.
Copyright (C) 1999, 2000, 2001, 2002 Mission Critical Linux, Inc.
This program is free software, covered by the GNU General Public License,
and you are welcome to change it and/or distribute copies of it under
certain conditions. Enter "help copying" to see the conditions.
This program has absolutely no warranty. Enter "help warranty" for details.
GNU gdb 6.1
Copyright 2004 Free Software Foundation, Inc.
GDB is free software, covered by the GNU General Public License, and you are
welcome to change it and/or distribute copies of it under certain conditions.
Type "show copying" to see the conditions.
There is absolutely no warranty for GDB. Type "show warranty" for details.
This GDB was configured as "x86_64-unknown-linux-gnu"...
SYSTEM MAP: /boot/System.map-2.6.18-194.el5
DEBUG KERNEL: /usr/lib/debug/lib/modules/2.6.18-194.el5/vmlinux (2.6.18-194.el5)
DUMPFILE: /var/crash/2011-05-26-00:06/vmcore
CPUS: 2
DATE: Thu May 26 00:05:47 2011
UPTIME: 04:47:41
LOAD AVERAGE: 0.00, 0.00, 0.01
TASKS: 122
NODENAME: pc*****
RELEASE: 2.6.18-194.el5
VERSION: #1 SMP Fri Apr 2 14:58:14 EDT 2010
MACHINE: x86_64 (3059 Mhz)
MEMORY: 3.9 GB
PANIC: "Oops: 0000 [1] SMP " (check log for details)
PID: 19376
COMMAND: "cpi"
TASK: ffff810094dd80c0 [THREAD_INFO: ffff8100a9bde000]
CPU: 0
STATE: TASK_RUNNING (PANIC)
crash> bt
PID: 19376 TASK: ffff810094dd80c0 CPU: 0 COMMAND: "cpi"
#0 [ffff8100a9bdfa40] crash_kexec at ffffffff800aeb6b
#1 [ffff8100a9bdfb00] __die at ffffffff80066157
#2 [ffff8100a9bdfb40] do_page_fault at ffffffff80067dd7
#3 [ffff8100a9bdfc30] error_exit at ffffffff8005ede9
[exception RIP: find_epm_context+122]
RIP: ffffffff8869707a RSP: ffff8100a9bdfce0 RFLAGS: 00010206
RAX: 0000000000000000 RBX: 0000000000000010 RCX: 0000000000000000
RDX: 0000000000000000 RSI: ffff8100b7069000 RDI: 0000000000000000
RBP: ffff81011b079000 R8: ffffffffffffffff R9: fefefeff2f677364
R10: 0000000000000000 R11: 0000000000000246 R12: 00007fff5710e480
R13: 000000000000000a R14: ffff8100cde84d80 R15: 00002b76a76b5000
ORIG_RAX: ffffffffffffffff CS: 0010 SS: 0018
#4 [ffff8100a9bdfcf0] pm_ethernet_ioctl at ffffffff8869ac4d
#5 [ffff8100a9bdfeb0] do_ioctl at ffffffff800424bd
#6 [ffff8100a9bdfed0] vfs_ioctl at ffffffff800304d6
#7 [ffff8100a9bdff40] sys_ioctl at ffffffff8004cbb7
#8 [ffff8100a9bdff80] system_call at ffffffff8005e116
RIP: 0000003001ecc897 RSP: 00007fff5710dc18 RFLAGS: 00010202
RAX: 0000000000000010 RBX: ffffffff8005e116 RCX: 0000000000000000
RDX: 00007fff5710e480 RSI: 00000000403c7001 RDI: 000000000000000a
RBP: 0000000000df1a80 R8: fefefefefefefeff R9: fefefeff2f677364
R10: 0000000000000000 R11: 0000000000000246 R12: 0000000000e0b270
R13: 0000000000e0b550 R14: 0000000000000000 R15: 00007fff5710e480
ORIG_RAX: 0000000000000010 CS: 0033 SS: 002b
crash>
---------------------------------------------------------
何かお気づきの点がございましたらお知らせくださいますよう
お願いいたします。
以上、よろしくお願いいたします。
>亀山様
>
>柴田です。
>ご回答いただきありがとうございます。
>
>>PMX/Ethernet ですよね?
>>直した記憶だけはあるのですが...
>
>はい。ethernetを指定して実行しております。
>SCore7.0.1にパッチ等をあてる必要等があるようでしたら
>お知らせくださいますようお願いいたします。
>
>>多分, kdump の設定を行えば, どこで落ちたかはわかると
>>思います.
>> http://d.hatena.ne.jp/ymko/20100430/1272643166
>>あたりが参考になると思います.
>
>承知いたしました。
>まずはkdumpの設定をし、落ちた場所の特定を実施するように
>いたします。
>
>
>以上、よろしくお願いいたします。
>
>>亀山です.
>>
>>(2011年05月23日 09:25), Hiroaki Shibata wrote:
>>> SCore7.0.1を使用してサンプルのcpiプログラムを実行した場合に
>>> 時々、計算サーバが停止する現象が発生しており、調査を実施して
>>> います。
>>
>>PMX/Ethernet ですよね?
>>直した記憶だけはあるのですが...
>>
>>> 状況としては、計算サーバのうちの一台が突然無反応になり、
>>> キーボードのCapLockやScrollLockが点滅し、キーボード、ssh
>>> 等が全て受け付けられません。
>>> kernel panic のように思いますが、コンソール上には何も表示
>>> されておらず、電源ボタン長押しで再起動するしかない状況に
>>> なります。
>>
>>多分, kdump の設定を行えば, どこで落ちたかはわかると
>>思います.
>> http://d.hatena.ne.jp/ymko/20100430/1272643166
>>あたりが参考になると思います.
>>
>>Kameyama Toyohisa
>
>柴田 裕昭(shibata.hiroaki @ jp.fujitsu.com)
>
>_______________________________________________
>SCore-users-jp mailing list
>SCore-users-jp @ pccluster.org
>http://www.pccluster.org/mailman/listinfo/score-users-jp
--
柴田 裕昭(shibata.hiroaki @ jp.fujitsu.com)
SCore-users-jp メーリングリストの案内