[SCore-users-jp] OpenMPでのスタック

k-ikegami @ aj.jp.nec.com k-ikegami @ aj.jp.nec.com
2004年 6月 22日 (火) 10:35:18 JST


池上と申します。

OmniOpenMP環境、2×2の環境にてAPを走らせると、数時間後にプログラムがスタックします。
走らせていると、途中で
 <0> SCORE WARNING: Physical memory might be exhausted.
の表示が出て、本表示の数時間後にスタックしました。
少し前に本MLで話題に”おせっかいメッセージとして”話題に上っていたので、直接原因では
ないのかな?と考えています。
(スタックしたときにfreeコマンドで見てもswapを使い果たしていませんでした。)

psで見るとプロセスは生きているので、GDBでバックトレースしてみると、
下記の様に、3,4番目のノードでシグナルハンドラが呼ばれていました。1,2番目のノードは
バリア同期待ちのようです。
同じプログラムを1×2環境(1プロセッサ2CPU)で走らせると、1日経過しても症状は発生しません。

シグナルハンドラが呼ばれているUser_Function_1を徹底的にデバッグしましたが、特に問題になり
そうなコードを発見できない状況です。
ハンドラが呼ばれるという観点から、どなたかこのような経験をお持ちの方、解決のヒントをお持ちの方
がいらっしゃいましたら、ご教授いただけないでしょうか?


以下は、スタック時のバックトレースです。

Node-1:
(gdb) bt
#0  0x080ddd94 in ioctl ()
#1  0x40073000 in ?? ()
#2  0x0808ca2d in comp_receive ()
#3  0x08076fb2 in scash_message_recv ()
#4  0x0807333c in scash_barrier_a2a ()
#5  0x08073e56 in scash_barrier ()
#6  0x0806fcca in _ompsm_scash_master_end ()
#7  0x0806c684 in _ompc_do_parallel_if ()
#8  0x0806c703 in _ompc_do_parallel ()
#9  0x08062fa1 in Moni_CalcMain ()
#10 0x0805e011 in Moni_GetEvent ()
#11 0x0806650a in _ompc_main ()
#12 0x0806bf79 in main ()

Node-2:
(gdb) bt
#0  0x080ddd94 in ioctl ()
#1  0x400b9000 in ?? ()
#2  0x0808ca2d in comp_receive ()
#3  0x08076fb2 in scash_message_recv ()
#4  0x0807333c in scash_barrier_a2a ()
#5  0x08073e56 in scash_barrier ()
#6  0x0806fce2 in _ompsm_scash_slave_end ()
#7  0x0806c505 in _ompsm_slave_main ()
#8  0x0806fc83 in _ompsm_scash_slave_wrapper ()
#9  0x0806fc3d in _ompsm_scash_init ()
#10 0x0806bfdf in _ompc_init ()
#11 0x0806bf9e in _ompsm_init ()
#12 0x0806bf72 in main ()
#13 0x080c0806 in __libc_start_main ()

Node-3:
(gdb) bt
#0  0x080ddd94 in ioctl ()
#1  0x40073000 in ?? ()
#2  0x0808ca8d in comp_receive ()
#3  0x08076fb2 in scash_message_recv ()
#4  0x0807872b in scash_page_rma_copy ()
#5  0x08076385 in scash_vm_handler ()
#6  <signal handler called>
#7  0x08064100 in User_Function_1 ()
#8  0x08062711 in __ompc_func_3 ()
#9  0x0806c4fb in _ompsm_slave_main ()
#10 0x0806fc83 in _ompsm_scash_slave_wrapper ()
#11 0x0806fc3d in _ompsm_scash_init ()
#12 0x0806bfdf in _ompc_init ()
#13 0x0806bf9e in _ompsm_init ()
#14 0x0806bf72 in main ()
#15 0x080c0806 in __libc_start_main ()

Node-4:
(gdb) bt
#0  0x080ddd94 in ioctl ()
#1  0x400b9000 in ?? ()
#2  0x0808ca8d in comp_receive ()
#3  0x08076fb2 in scash_message_recv ()
#4  0x0807872b in scash_page_rma_copy ()
#5  0x08076385 in scash_vm_handler ()
#6  <signal handler called>
#7  0x08063e94 in User_Function_1 ()
#8  0x08062711 in __ompc_func_3 ()
#9  0x0806c4fb in _ompsm_slave_main ()
#10 0x0806fc83 in _ompsm_scash_slave_wrapper ()
#11 0x0806fc3d in _ompsm_scash_init ()
#12 0x0806bfdf in _ompc_init ()
#13 0x0806bf9e in _ompsm_init ()
#14 0x0806bf72 in main ()
#15 0x080c0806 in __libc_start_main ()


/*----------------------------------------------*/
// 池上 光太郎 e-mail: k-ikegami @ aj.jp.nec.com
// TEL : 042-333-5470          FAX : 042-333-5267
// 日本電気株式会社 電波応用事業部 航空システム部



SCore-users-jp メーリングリストの案内