[SCore-users-jp] sc_watch

2004年 10月 28日 (木) 14:22:11 JST

亀山です.

In article <417FC7D2.7040108 ＠ matsulab.is.titech.ac.jp> Naoya Maruyama <naoya ＠ smg.is.titech.ac.jp> wrotes:
> SCore5.4, RedHat7.1, kernel v2.4.19 の環境で、sc_watchを実行すると、サブ
> ミットしたノードのsyslogに例えば、
> 
> 日付　ノード名  日付　時刻 sc_watch: ノード名
> 
> の形式のメッセージが全計算ノード分について記録されますが、

この形式の message を見た記憶がないのですが...

> 補足しますと、これはsc_watchによる自動再起動が行われたときに発生しまし
> た。すなわち、
> 
> 1. sc_watch がタイムアウトを検出
> 2. 各ノードでscremote, scoredを再起動
> 3. sc_watch を再実行

sc_watch は再実行しませんけど...

> また、sc_watchがイベント1でタイムアウトを検出したノードがどのノードかは
> どこを調べたらわかりますでしょうか？

sc_watch は scored が (その host で) 動いているかどうかを
監視しているだけなので, どのホストが原因であるかは関知しません.
(SCore-D の bug で止っている可能性もありますし...)

> ちなみに、このときはこちらの環境になんらかの問題があった模様で、自動再起
> 動が繰り返し発生していました。現在その原因を探っているのですが、なんらか
> の手がかりが得られると幸いです。

SCore-D 自体に問題があるとしたら,
sc_watch に指定する scored のかわりに
    scored_dev -scoredtrace 100
などを指定するともう少し詳しい情報がとれるかもしれません.
(100 は debug レベルで小さいほどメッセージが出力されます.)

                       from Kameyama Toyohisa