[SCore-users-jp] kernel 不具合?
Kameyama Toyohisa
kameyama @ pccluster.org
2006年 9月 12日 (火) 21:05:44 JST
亀山です.
vqm_mp wrote:
> <0> SCore-D:DEBUG sizeof(Cluster)=4556
> <0> SCore-D:DEBUG sizeof(Job)=7308
> <0> SCore-D:DEBUG sizeof(Allocation)=32
> <0> SCore-D:DEBUG sizeof(SchedQueue)=280
> <0> SCore-D:DEBUG sizeof(FEP)=14272
> <0> SCore-D:DEBUG sizeof(Subjob)=6124
> <0> SCore-D:DEBUG sizeof(ControlTree)=1572
> <0> SCore-D:DEBUG sizeof(PE)=15204
> <0> SCore-D:DEBUG sizeof(PPE)=4236
> <0> SCore-D:DEBUG sizeof(PeGroup)=5148
> <0> SCore-D:DEBUG sizeof(Timer)=52
> <0> SCore-D:DEBUG sizeof(NetworkContext)=176
> <0> SCore-D:DEBUG sizeof(SocketAddress)=136
> <0> SCore-D:DEBUG sizeof(Carea)=71072
> ここで出力が止まり,その後何も反応がないため,
> kill -9 コマンドで強制終了する(-9 オプションが
> ないとkillできない)ことになる.
> **************************
この状態で止めるときは, 計算ホストにも scored などが残っている可能性が
ありますので,
kill-all -g pcc scored
などで, 計算ボスとのプロセスを殺してください.
(計算ホストの process を殺せば scrun も終わるはずです.)
> *******2パターン目********
> 途中略
> <0> SCORE-D:DEBUG size_file=342740
> <0> SCORE-D:DEBUG size_file=341352
> <0> SCORE-D:DEBUG size_file=339964
> <0> SCORE-D:DEBUG size_file=338576
> <0> SCORE-D:DEBUG size_file=3371FEP:PANIC too large
> message (tag=56,size=14346)
多分, 問題はこれです.
SCore-D から scrun への通信で変なものを送っているためパニックしています.
残念ながら SCore 5.8.3
http://www.pccluster.org/score/dist/score/html/ja/release/new5-8-3.html
の制限事項
2. 大量の出力があるプログラムを動かすと SCore-D がクラッシュすること
があります。
にあたりそうです.
(私は SCore-D が大量の出力をした場合しかこのメッセージをみませんでしたが...)
Kameyama Toyohisa
SCore-users-jp メーリングリストの案内