[SCore-users-jp] sc_watch
kameyama @ pccluster.org
kameyama @ pccluster.org
2004年 10月 28日 (木) 14:22:11 JST
亀山です.
In article <417FC7D2.7040108 @ matsulab.is.titech.ac.jp> Naoya Maruyama <naoya @ smg.is.titech.ac.jp> wrotes:
> SCore5.4, RedHat7.1, kernel v2.4.19 の環境で、sc_watchを実行すると、サブ
> ミットしたノードのsyslogに例えば、
>
> 日付 ノード名 日付 時刻 sc_watch: ノード名
>
> の形式のメッセージが全計算ノード分について記録されますが、
この形式の message を見た記憶がないのですが...
> 補足しますと、これはsc_watchによる自動再起動が行われたときに発生しまし
> た。すなわち、
>
> 1. sc_watch がタイムアウトを検出
> 2. 各ノードでscremote, scoredを再起動
> 3. sc_watch を再実行
sc_watch は再実行しませんけど...
> また、sc_watchがイベント1でタイムアウトを検出したノードがどのノードかは
> どこを調べたらわかりますでしょうか?
sc_watch は scored が (その host で) 動いているかどうかを
監視しているだけなので, どのホストが原因であるかは関知しません.
(SCore-D の bug で止っている可能性もありますし...)
> ちなみに、このときはこちらの環境になんらかの問題があった模様で、自動再起
> 動が繰り返し発生していました。現在その原因を探っているのですが、なんらか
> の手がかりが得られると幸いです。
SCore-D 自体に問題があるとしたら,
sc_watch に指定する scored のかわりに
scored_dev -scoredtrace 100
などを指定するともう少し詳しい情報がとれるかもしれません.
(100 は debug レベルで小さいほどメッセージが出力されます.)
from Kameyama Toyohisa
SCore-users-jp メーリングリストの案内