[SCore-users-jp] SCore7.0.1での実行時に計算サーバが異常終了する現象について

Hiroaki Shibata shibata.hiroaki @ jp.fujitsu.com
2011年 5月 27日 (金) 15:11:28 JST


亀山様

柴田です。
kdumpの設定をいたしまして、現象を再現させることができました。

採取されたdumpについてcrashで採取することができた情報
は以下のようになりました。

---------------------------------------------------------
crash /boot/System.map-2.6.18-194.el5 /usr/lib/debug/lib/modules/2.6.18-194.el5/
vmlinux /var/crash/2011-05-26-00\:06/vmcore

crash 4.1.2-4.el5.centos.1
Copyright (C) 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009  Red Hat, Inc.
Copyright (C) 2004, 2005, 2006  IBM Corporation
Copyright (C) 1999-2006  Hewlett-Packard Co
Copyright (C) 2005, 2006  Fujitsu Limited
Copyright (C) 2006, 2007  VA Linux Systems Japan K.K.
Copyright (C) 2005  NEC Corporation
Copyright (C) 1999, 2002, 2007  Silicon Graphics, Inc.
Copyright (C) 1999, 2000, 2001, 2002  Mission Critical Linux, Inc.
This program is free software, covered by the GNU General Public License,
and you are welcome to change it and/or distribute copies of it under
certain conditions.  Enter "help copying" to see the conditions.
This program has absolutely no warranty.  Enter "help warranty" for details.

GNU gdb 6.1
Copyright 2004 Free Software Foundation, Inc.
GDB is free software, covered by the GNU General Public License, and you are
welcome to change it and/or distribute copies of it under certain conditions.
Type "show copying" to see the conditions.
There is absolutely no warranty for GDB.  Type "show warranty" for details.
This GDB was configured as "x86_64-unknown-linux-gnu"...

  SYSTEM MAP: /boot/System.map-2.6.18-194.el5
DEBUG KERNEL: /usr/lib/debug/lib/modules/2.6.18-194.el5/vmlinux (2.6.18-194.el5)
    DUMPFILE: /var/crash/2011-05-26-00:06/vmcore
        CPUS: 2
        DATE: Thu May 26 00:05:47 2011
      UPTIME: 04:47:41
LOAD AVERAGE: 0.00, 0.00, 0.01
       TASKS: 122
    NODENAME: pc*****
     RELEASE: 2.6.18-194.el5
     VERSION: #1 SMP Fri Apr 2 14:58:14 EDT 2010
     MACHINE: x86_64  (3059 Mhz)
      MEMORY: 3.9 GB
       PANIC: "Oops: 0000 [1] SMP " (check log for details)
         PID: 19376
     COMMAND: "cpi"
        TASK: ffff810094dd80c0  [THREAD_INFO: ffff8100a9bde000]
         CPU: 0
       STATE: TASK_RUNNING (PANIC)

crash> bt
PID: 19376  TASK: ffff810094dd80c0  CPU: 0   COMMAND: "cpi"
 #0 [ffff8100a9bdfa40] crash_kexec at ffffffff800aeb6b
 #1 [ffff8100a9bdfb00] __die at ffffffff80066157
 #2 [ffff8100a9bdfb40] do_page_fault at ffffffff80067dd7
 #3 [ffff8100a9bdfc30] error_exit at ffffffff8005ede9
    [exception RIP: find_epm_context+122]
    RIP: ffffffff8869707a  RSP: ffff8100a9bdfce0  RFLAGS: 00010206
    RAX: 0000000000000000  RBX: 0000000000000010  RCX: 0000000000000000
    RDX: 0000000000000000  RSI: ffff8100b7069000  RDI: 0000000000000000
    RBP: ffff81011b079000   R8: ffffffffffffffff   R9: fefefeff2f677364
    R10: 0000000000000000  R11: 0000000000000246  R12: 00007fff5710e480
    R13: 000000000000000a  R14: ffff8100cde84d80  R15: 00002b76a76b5000
    ORIG_RAX: ffffffffffffffff  CS: 0010  SS: 0018
 #4 [ffff8100a9bdfcf0] pm_ethernet_ioctl at ffffffff8869ac4d
 #5 [ffff8100a9bdfeb0] do_ioctl at ffffffff800424bd
 #6 [ffff8100a9bdfed0] vfs_ioctl at ffffffff800304d6
 #7 [ffff8100a9bdff40] sys_ioctl at ffffffff8004cbb7
 #8 [ffff8100a9bdff80] system_call at ffffffff8005e116
    RIP: 0000003001ecc897  RSP: 00007fff5710dc18  RFLAGS: 00010202
    RAX: 0000000000000010  RBX: ffffffff8005e116  RCX: 0000000000000000
    RDX: 00007fff5710e480  RSI: 00000000403c7001  RDI: 000000000000000a
    RBP: 0000000000df1a80   R8: fefefefefefefeff   R9: fefefeff2f677364
    R10: 0000000000000000  R11: 0000000000000246  R12: 0000000000e0b270
    R13: 0000000000e0b550  R14: 0000000000000000  R15: 00007fff5710e480
    ORIG_RAX: 0000000000000010  CS: 0033  SS: 002b
crash>
---------------------------------------------------------

何かお気づきの点がございましたらお知らせくださいますよう
お願いいたします。


以上、よろしくお願いいたします。


>亀山様
>
>柴田です。
>ご回答いただきありがとうございます。
>
>>PMX/Ethernet ですよね?
>>直した記憶だけはあるのですが...
>
>はい。ethernetを指定して実行しております。
>SCore7.0.1にパッチ等をあてる必要等があるようでしたら
>お知らせくださいますようお願いいたします。
>
>>多分, kdump の設定を行えば, どこで落ちたかはわかると
>>思います.
>>    http://d.hatena.ne.jp/ymko/20100430/1272643166
>>あたりが参考になると思います.
>
>承知いたしました。
>まずはkdumpの設定をし、落ちた場所の特定を実施するように
>いたします。
>
>
>以上、よろしくお願いいたします。
>
>>亀山です.
>>
>>(2011年05月23日 09:25), Hiroaki Shibata wrote:
>>> SCore7.0.1を使用してサンプルのcpiプログラムを実行した場合に
>>> 時々、計算サーバが停止する現象が発生しており、調査を実施して
>>> います。
>>
>>PMX/Ethernet ですよね?
>>直した記憶だけはあるのですが...
>>
>>> 状況としては、計算サーバのうちの一台が突然無反応になり、
>>> キーボードのCapLockやScrollLockが点滅し、キーボード、ssh
>>> 等が全て受け付けられません。
>>> kernel panic のように思いますが、コンソール上には何も表示
>>> されておらず、電源ボタン長押しで再起動するしかない状況に
>>> なります。
>>
>>多分, kdump の設定を行えば, どこで落ちたかはわかると
>>思います.
>>    http://d.hatena.ne.jp/ymko/20100430/1272643166
>>あたりが参考になると思います.
>>
>>Kameyama Toyohisa
>
>柴田 裕昭(shibata.hiroaki @ jp.fujitsu.com>
>_______________________________________________
>SCore-users-jp mailing list
>SCore-users-jp @ pccluster.org
>http://www.pccluster.org/mailman/listinfo/score-users-jp

--
柴田 裕昭(shibata.hiroaki @ jp.fujitsu.com


SCore-users-jp メーリングリストの案内