[SCore-users-jp] sc_watch

Naoya Maruyama naoya @ smg.is.titech.ac.jp
2004年 10月 28日 (木) 17:02:54 JST


kameyama @ pccluster.org wrote:
> 亀山です.
> 
> In article <41809307.5080100 @ matsulab.is.titech.ac.jp> Naoya Maruyama <naoya @ smg.is.titech.ac.jp> wrotes:
> 
>>>この形式の message を見た記憶がないのですが...
>>
>>メッセージについて補足しますと、最初の日付、ノード名はsyslogでデフォルト
>>でつくヘッダーであり、SCore側で「日付 時刻 sc_watch: 計算ノード名」とい
>>う形式のメッセージが出されています。ちなみに、最初の一行だけは、「日付 
>>時刻 sc_watch: SCOUNT Spawning 先頭計算ノード名」となっています。それ以
>>外は、他のすべての計算ノードについて上記形式のメッセージが記録されていま
>>す。その中で、一部の計算ノードについてメッセージが抜けている場合があります。
> 
> 
> あ, scout のときにでてくる message ですね.
> 会話的に使用するとき, どこまで scremote が起動したかを
> 示すために scout が出力するものです.
> 実際は
> hostname
> \b(hostname の長さだけ)
> space(hostname の長さだけ)
> というのがホスト名だけ出てきます.
> (その間改行なし.)
> これが全部記録されるかどうかは, 長い行を syslog が記録できるかに
> 関係しそうです.
> 
> 多分, 気にしなくて良いのではないかと...

不思議なのが、すべて記録される場合もあればそうでない場合もあるということ
です。また、長い行が記録できないというならば、行の末尾が省かれるのではな
いかと思いますが、だとしたらscoutがscremoteを起動した順番の最後の方の計
算ノードについて省かれることになるはずですよね。scoutがノード番号の先頭
ノードから順にscremoteを実行するのであれば(正常にすべて記録されている場
合はノード番号順になっています)、計算ノード郡の途中のノードについてメッ
セージが省かれてしまうというのはおかしいと思います。

> 
> 
>>>>また、sc_watchがイベント1でタイムアウトを検出したノードがどのノードかは
>>>>どこを調べたらわかりますでしょうか?
>>>
>>>
>>>sc_watch は scored が (その host で) 動いているかどうかを
>>>監視しているだけなので, どのホストが原因であるかは関知しません.
>>>(SCore-D の bug で止っている可能性もありますし...)
>>
>>いまいち "scored" と "SCore-D" の違いがよくわかっていないのですが
> 
> 
> 確かに...
> 同じものを示していました.
> 
> 
>>sc_watchでは、「あるノードAでscoredが動いてい
>>る」≡「sc_watchにノードAから応答がある」であり、「あるノードAでscoredが
>>動いていない」≡「sc_watchにノードAから応答がない」ですよね?
> 
> 
> sc_watch は一つの host (syslog で server と出力される host) の scored しか
> 監視していません.
> 
> scored はすべてのホストと通信し, (実際にはバケツリレー的に通信し,
> 自分に戻ってきたら) sc_watch にメッセージをなげます.
> 
> sc_watch はこの scored から定期的に出力されるメッセージから
> scored が生きていると判断しています.
> 
> (ソースで言うと, sc_watch 側が
>     score-src/SCore/scored/adm/watch/sc_watch.c の watching()
> scored 側が
>     core-src/SCore/scored/scored/patrol.cc の patrol_nodes()
> です.)
> 

解説どうもありがとうございます。納得いきました。

丸山直也 東工大



SCore-users-jp メーリングリストの案内