[SCore-users-jp] sc_watch
Atsushi HORI
hori @ swimmy-soft.com
2004年 10月 28日 (木) 15:55:28 JST
堀@スイミー・ソフトウェアです。
On 2004/10/28, at 15:34, Naoya Maruyama wrote:
> いまいち "scored" と "SCore-D" の違いがよくわかっていないのですが、いく
> つか確認させてください。sc_watchでは、「あるノードAでscoredが動いてい
> る」≡「sc_watchにノードAから応答がある」であり、「あるノードAでscoredが
> 動いていない」≡「sc_watchにノードAから応答がない」ですよね?
sc_watch は全てのホスト(ノード)の状態を監視しているのではありません。もしこうすると 1,000 台のホストからなるクラスタでは
1,000 本もの監視ポート(具体的に、例えば TCP/IP)が必要になってしまいますから。
sc_watch は SCore-D、これはプログラムの名称で scored
とはその実体のファイル名です、が定期的に各ホストからの返答を待ち、この結果をひとつにまとめて sc_watch
に返しているのです。scored では PM が使えるので TCP/IP よりも高速に調べることができますし、TCP は正常だけど PM
の通信がおかしいという状態も(完全ではないにせよ)調べることができます。
ですから、sc_watch にはその監視対象となる全ての scored
プロセスが全て正常な状態か、そのどれかがおかしい状態か、しか分かりません。
> 私が質問しましたのはタイムアウトがどのホストとの間で起きたかを調べる手段
> です。上の私の理解が正しければ、この情報は当然sc_watchは持っているはずだ
> と思うのですが。
scored がおかしくなった、というのは、ホストのダウンだけでなく、scored が使っている PM 通信が異常になった、あるいは
scored 自体に異常(例えば
PANIC)が生じた、という状況も含まれます。これらはいづれも結果的にユーザプログラムが正常に実行を継続できない状態なので、sc_watch
としては再起動を試みるしかない訳です。
で、
> その中で、一部の計算ノードについてメッセージが抜けている場合があります。
がそもそもの問題だと理解しているのですが、どのように「抜け」ているのでしょう?できればログをそのまま(いっさい加工しないで)送って頂きたいです。
SCore-users-jp メーリングリストの案内