[SCore-users-jp] sc_watch

Naoya Maruyama naoya @ smg.is.titech.ac.jp
2004年 10月 28日 (木) 01:07:46 JST


sc_watchについて質問があります。

SCore5.4, RedHat7.1, kernel v2.4.19 の環境で、sc_watchを実行すると、サブ
ミットしたノードのsyslogに例えば、

日付 ノード名  日付 時刻 sc_watch: ノード名

の形式のメッセージが全計算ノード分について記録されますが、ときどき一部の
ノードについてこのメッセージが記録されていない場合があります(node00-
node63で構成している場合に、node10-node20についてのみないなど)。特に
sc_watchはエラーメッセージを出力していないのですが、問題ないのでしょうか?

補足しますと、これはsc_watchによる自動再起動が行われたときに発生しまし
た。すなわち、

1. sc_watch がタイムアウトを検出
2. 各ノードでscremote, scoredを再起動
3. sc_watch を再実行

の、イベント3の段階で発生しました。ログがないノードのsyslogから、イベン
ト2のscremoteは実行されていることは確認しています。

また、sc_watchがイベント1でタイムアウトを検出したノードがどのノードかは
どこを調べたらわかりますでしょうか?

ちなみに、このときはこちらの環境になんらかの問題があった模様で、自動再起
動が繰り返し発生していました。現在その原因を探っているのですが、なんらか
の手がかりが得られると幸いです。よろしくお願いします。

丸山直也 東工大






SCore-users-jp メーリングリストの案内