[SCore-users-jp] kernel 不具合?

Kameyama Toyohisa kameyama @ pccluster.org
2006年 9月 12日 (火) 21:05:44 JST


亀山です.

vqm_mp wrote:
> <0> SCore-D:DEBUG sizeof(Cluster)=4556
> <0> SCore-D:DEBUG sizeof(Job)=7308
> <0> SCore-D:DEBUG sizeof(Allocation)=32
> <0> SCore-D:DEBUG sizeof(SchedQueue)=280
> <0> SCore-D:DEBUG sizeof(FEP)=14272
> <0> SCore-D:DEBUG sizeof(Subjob)=6124
> <0> SCore-D:DEBUG sizeof(ControlTree)=1572
> <0> SCore-D:DEBUG sizeof(PE)=15204
> <0> SCore-D:DEBUG sizeof(PPE)=4236
> <0> SCore-D:DEBUG sizeof(PeGroup)=5148
> <0> SCore-D:DEBUG sizeof(Timer)=52
> <0> SCore-D:DEBUG sizeof(NetworkContext)=176
> <0> SCore-D:DEBUG sizeof(SocketAddress)=136
> <0> SCore-D:DEBUG sizeof(Carea)=71072
> ここで出力が止まり,その後何も反応がないため,
> kill -9 コマンドで強制終了する(-9 オプションが
> ないとkillできない)ことになる.
> **************************

この状態で止めるときは, 計算ホストにも scored などが残っている可能性が
ありますので,
    kill-all -g pcc scored
などで, 計算ボスとのプロセスを殺してください.
(計算ホストの process を殺せば scrun も終わるはずです.)


> *******2パターン目********
> 途中略
> <0> SCORE-D:DEBUG size_file=342740
> <0> SCORE-D:DEBUG size_file=341352
> <0> SCORE-D:DEBUG size_file=339964
> <0> SCORE-D:DEBUG size_file=338576
> <0> SCORE-D:DEBUG size_file=3371FEP:PANIC too large
> message (tag=56,size=14346)

多分, 問題はこれです.
SCore-D から scrun への通信で変なものを送っているためパニックしています.

残念ながら SCore 5.8.3
    http://www.pccluster.org/score/dist/score/html/ja/release/new5-8-3.html
の制限事項
    2. 大量の出力があるプログラムを動かすと SCore-D がクラッシュすること
があります。
にあたりそうです.
(私は SCore-D が大量の出力をした場合しかこのメッセージをみませんでしたが...)

Kameyama Toyohisa



SCore-users-jp メーリングリストの案内