[SCore-users-jp] sc_watch

Naoya Maruyama naoya @ smg.is.titech.ac.jp
2004年 10月 28日 (木) 15:34:47 JST


kameyama @ pccluster.org wrote:
> 亀山です.
> 
> In article <417FC7D2.7040108 @ matsulab.is.titech.ac.jp> Naoya Maruyama <naoya @ smg.is.titech.ac.jp> wrotes:
> 
>>SCore5.4, RedHat7.1, kernel v2.4.19 の環境で、sc_watchを実行すると、サブ
>>ミットしたノードのsyslogに例えば、
>>
>>日付 ノード名  日付 時刻 sc_watch: ノード名
>>
>>の形式のメッセージが全計算ノード分について記録されますが、
> 
> 
> この形式の message を見た記憶がないのですが...

メッセージについて補足しますと、最初の日付、ノード名はsyslogでデフォルト
でつくヘッダーであり、SCore側で「日付 時刻 sc_watch: 計算ノード名」とい
う形式のメッセージが出されています。ちなみに、最初の一行だけは、「日付 
時刻 sc_watch: SCOUNT Spawning 先頭計算ノード名」となっています。それ以
外は、他のすべての計算ノードについて上記形式のメッセージが記録されていま
す。その中で、一部の計算ノードについてメッセージが抜けている場合があります。

> 
> 
>>補足しますと、これはsc_watchによる自動再起動が行われたときに発生しまし
>>た。すなわち、
>>
>>1. sc_watch がタイムアウトを検出
>>2. 各ノードでscremote, scoredを再起動
>>3. sc_watch を再実行
> 
> 
> sc_watch は再実行しませんけど...

sc_watchのタイマーが再実行というのが正しいですね。

> 
> 
>>また、sc_watchがイベント1でタイムアウトを検出したノードがどのノードかは
>>どこを調べたらわかりますでしょうか?
> 
> 
> sc_watch は scored が (その host で) 動いているかどうかを
> 監視しているだけなので, どのホストが原因であるかは関知しません.
> (SCore-D の bug で止っている可能性もありますし...)

いまいち "scored" と "SCore-D" の違いがよくわかっていないのですが、いく
つか確認させてください。sc_watchでは、「あるノードAでscoredが動いてい
る」≡「sc_watchにノードAから応答がある」であり、「あるノードAでscoredが
動いていない」≡「sc_watchにノードAから応答がない」ですよね?

私が質問しましたのはタイムアウトがどのホストとの間で起きたかを調べる手段
です。上の私の理解が正しければ、この情報は当然sc_watchは持っているはずだ
と思うのですが。

> 
> SCore-D 自体に問題があるとしたら,
> sc_watch に指定する scored のかわりに
>     scored_dev -scoredtrace 100
> などを指定するともう少し詳しい情報がとれるかもしれません.
> (100 は debug レベルで小さいほどメッセージが出力されます.)
> 

情報ありがとうございます。こういった情報が他にもどこかに文書化されていた
ら教えていただけると助かります。

丸山直也 東工大



SCore-users-jp メーリングリストの案内