[SCore-users-jp] sc_watch
Naoya Maruyama
naoya @ smg.is.titech.ac.jp
2004年 10月 28日 (木) 16:14:28 JST
Atsushi HORI wrote:
>
> 堀@スイミー・ソフトウェアです。
>
>
> On 2004/10/28, at 15:34, Naoya Maruyama wrote:
>
>> いまいち "scored" と "SCore-D" の違いがよくわかっていないのですが、いく
>> つか確認させてください。sc_watchでは、「あるノードAでscoredが動いてい
>> る」≡「sc_watchにノードAから応答がある」であり、「あるノードAでscoredが
>> 動いていない」≡「sc_watchにノードAから応答がない」ですよね?
>
>
> sc_watch は全てのホスト(ノード)の状態を監視しているのではありません。
> もしこうすると 1,000 台のホストからなるクラスタでは 1,000 本もの監視ポー
> ト(具体的に、例えば TCP/IP)が必要になってしまいますから。
> sc_watch は SCore-D、これはプログラムの名称で scored とはその実体のファ
> イル名です、が定期的に各ホストからの返答を待ち、この結果をひとつにまとめ
> て sc_watch に返しているのです。scored では PM が使えるので TCP/IP より
> も高速に調べることができますし、TCP は正常だけど PM の通信がおかしいとい
> う状態も(完全ではないにせよ)調べることができます。
>
> ですから、sc_watch にはその監視対象となる全ての scored プロセスが全て正
> 常な状態か、そのどれかがおかしい状態か、しか分かりません。
どのノードから応答がないのかはscoredプロセスしか知らないのですね。了解し
ました。
>
>> 私が質問しましたのはタイムアウトがどのホストとの間で起きたかを調べる手段
>> です。上の私の理解が正しければ、この情報は当然sc_watchは持っているはずだ
>> と思うのですが。
>
>
> scored がおかしくなった、というのは、ホストのダウンだけでなく、scored が
> 使っている PM 通信が異常になった、あるいは scored 自体に異常(例えば
> PANIC)が生じた、という状況も含まれます。これらはいづれも結果的にユーザ
> プログラムが正常に実行を継続できない状態なので、sc_watch としては再起動
> を試みるしかない訳です。
>
> で、
>
>> その中で、一部の計算ノードについてメッセージが抜けている場合があります。
>
>
> がそもそもの問題だと理解しているのですが、どのように「抜け」ているので
> しょう?できればログをそのまま(いっさい加工しないで)送って頂きたいです。
>
こちらは少々お待ちください。管理者と相談してみます。
丸山直也 東工大
SCore-users-jp メーリングリストの案内