[SCore-users-jp] sc_watch

kameyama @ pccluster.org kameyama @ pccluster.org
2004年 10月 28日 (木) 16:17:03 JST


亀山です.

In article <41809307.5080100 @ matsulab.is.titech.ac.jp> Naoya Maruyama <naoya @ smg.is.titech.ac.jp> wrotes:
> > この形式の message を見た記憶がないのですが...
> 
> メッセージについて補足しますと、最初の日付、ノード名はsyslogでデフォルト
> でつくヘッダーであり、SCore側で「日付 時刻 sc_watch: 計算ノード名」とい
> う形式のメッセージが出されています。ちなみに、最初の一行だけは、「日付 
> 時刻 sc_watch: SCOUNT Spawning 先頭計算ノード名」となっています。それ以
> 外は、他のすべての計算ノードについて上記形式のメッセージが記録されていま
> す。その中で、一部の計算ノードについてメッセージが抜けている場合があります。

あ, scout のときにでてくる message ですね.
会話的に使用するとき, どこまで scremote が起動したかを
示すために scout が出力するものです.
実際は
hostname
\b(hostname の長さだけ)
space(hostname の長さだけ)
というのがホスト名だけ出てきます.
(その間改行なし.)
これが全部記録されるかどうかは, 長い行を syslog が記録できるかに
関係しそうです.

多分, 気にしなくて良いのではないかと...

> >>また、sc_watchがイベント1でタイムアウトを検出したノードがどのノードかは
> >>どこを調べたらわかりますでしょうか?
> > 
> > 
> > sc_watch は scored が (その host で) 動いているかどうかを
> > 監視しているだけなので, どのホストが原因であるかは関知しません.
> > (SCore-D の bug で止っている可能性もありますし...)
> 
> いまいち "scored" と "SCore-D" の違いがよくわかっていないのですが

確かに...
同じものを示していました.

> sc_watchでは、「あるノードAでscoredが動いてい
> る」≡「sc_watchにノードAから応答がある」であり、「あるノードAでscoredが
> 動いていない」≡「sc_watchにノードAから応答がない」ですよね?

sc_watch は一つの host (syslog で server と出力される host) の scored しか
監視していません.

scored はすべてのホストと通信し, (実際にはバケツリレー的に通信し,
自分に戻ってきたら) sc_watch にメッセージをなげます.

sc_watch はこの scored から定期的に出力されるメッセージから
scored が生きていると判断しています.

(ソースで言うと, sc_watch 側が
    score-src/SCore/scored/adm/watch/sc_watch.c の watching()
scored 側が
    core-src/SCore/scored/scored/patrol.cc の patrol_nodes()
です.)

> 私が質問しましたのはタイムアウトがどのホストとの間で起きたかを調べる手段
> です。上の私の理解が正しければ、この情報は当然sc_watchは持っているはずだ
> と思うのですが。

というわけで, 誰も持っていません.

> > SCore-D 自体に問題があるとしたら,
> > sc_watch に指定する scored のかわりに
> >     scored_dev -scoredtrace 100
> > などを指定するともう少し詳しい情報がとれるかもしれません.
> > (100 は debug レベルで小さいほどメッセージが出力されます.)
> > 
> 
> 情報ありがとうございます。こういった情報が他にもどこかに文書化されていた
> ら教えていただけると助かります。

これは debug 用のものなので...

                       from Kameyama Toyohisa



SCore-users-jp メーリングリストの案内