[SCore-users-jp] kernel 不具合?

vqm_mp vqm_mp @ yahoo.co.jp
2006年 9月 12日 (火) 18:43:17 JST


ありがとうございます.明大の鈴木です.

> 
> scorehosts.db で msgbserv
> は設定していますでしょうか?
> msgbserv デーモンは動いていますでしょうか?
> scout のテスト
> 
>
http://www.pccluster.org/score/dist/score/html/ja/installation/scout-test.html
>>     scout ls
> などを行ったとき, msgb
> の色は変わっていますでしょうか?
> (これができていれば, rpmtest
> のプロセスを残していない限り,
> 二重起動しないはずなのですが...)

> 
> PM/Ethernet が open
> できなかったのは二重起動のためだったんでしょうか?
>

scout ls, scout dateは青が赤色になって正常に出力が
返ってきます.当初からmsgbserv デーモンが動いている
ことを確認しているつもりです.


> 何も反応がないというのが気になりますね.
> scoredtrace を 0 にして実行してみてください.

  scrun -nodes=2,scoredtrace=0 ./a.out
を行いました.やはり3パターンになりました.
3パターン目は正常に動いている場合であると思います.

*******1パターン目********
<0> SCore-D:DEBUG sizeof(Cluster)=4556
<0> SCore-D:DEBUG sizeof(Job)=7308
<0> SCore-D:DEBUG sizeof(Allocation)=32
<0> SCore-D:DEBUG sizeof(SchedQueue)=280
<0> SCore-D:DEBUG sizeof(FEP)=14272
<0> SCore-D:DEBUG sizeof(Subjob)=6124
<0> SCore-D:DEBUG sizeof(ControlTree)=1572
<0> SCore-D:DEBUG sizeof(PE)=15204
<0> SCore-D:DEBUG sizeof(PPE)=4236
<0> SCore-D:DEBUG sizeof(PeGroup)=5148
<0> SCore-D:DEBUG sizeof(Timer)=52
<0> SCore-D:DEBUG sizeof(NetworkContext)=176
<0> SCore-D:DEBUG sizeof(SocketAddress)=136
<0> SCore-D:DEBUG sizeof(Carea)=71072
ここで出力が止まり,その後何も反応がないため,
kill -9 コマンドで強制終了する(-9 オプションが
ないとkillできない)ことになる.
**************************

*******2パターン目********
途中略
<0> SCORE-D:DEBUG size_file=342740
<0> SCORE-D:DEBUG size_file=341352
<0> SCORE-D:DEBUG size_file=339964
<0> SCORE-D:DEBUG size_file=338576
<0> SCORE-D:DEBUG size_file=3371FEP:PANIC too large
message (tag=56,size=14346)
<0> SCore-D:TRACE(../fepio.cc:199) fepio_write() RETRY
<0> SCore-D:TRACE(../fepio.cc:214) fepio_write() RESUMED
<0> SCore-D:DEBUG << pe_mesg_out()
<0> SCore-D:TRACE(../fepio.cc:391) FEP_MESG_UNLOCK
<0> SCore-D:DEBUG >> pe_mesg_out(tag=6)
<0> SCore-D:DEBUG pe_mesg_out(size=1021)
<0> SCore-D:TRACE(../fepio.cc:375) FEP_MESG_LOCK
<0> SCore-D:DEBUG fepio_write(fd=200)
<0> SCore-D:TRACE(../fepio.cc:435) FEP_MESG_UNLOCK
途中略
<1> SCore-D:DEBUG >> pe_mesg_out(tag=6)
<1> SCore-D:DEBUG pe_mesg_out(CLOSED,tag=6)
<1> SCore-D:DEBUG >> pe_mesg_out(tag=5)
<1> SCore-D:DEBUG pe_mesg_out(size=27)
<1> SCore-D:TRACE(../fepio.cc:375) FEP_MESG_LOCK
<1> SCore-D:DEBUG << pe_mesg_out()
<1> SCore-D:TRACE(../fepio.cc:391) FEP_MESG_UNLOCK
<1> SCore-D:DEBUG >> pe_mesg_out(tag=5)
<1> SCore-D:DEBUG pe_mesg_out(CLOSED,tag=5)
<1> SCore-D:TRACE(../tss.cc:834) TSS scheduler ... idling
<1> SCore-D:TRACE(../tss.cc:834) TSS scheduler ... idling
<1> SCore-D:TRACE(../tss.cc:834) TSS scheduler ... idling
<1> SCore-D:TRACE(../tss.cc:834) TSS scheduler ... idling
<1> SCore-D:TRACE(../tss.cc:834) TSS scheduler ... idling
<1> SCore-D:TRACE(../tss.cc:834) TSS scheduler ... idling
<1> SCore-D:TRACE(../tss.cc:834) TSS scheduler ... idling
<1> SCore-D:TRACE(../tss.cc:834) TSS scheduler ... idling
以下
"<1> SCore-D:TRACE(../tss.cc:834) TSS scheduler ...
idling"
が永遠と続く.これはCtrl+Cで止めることができる.
**************************

*******3パターン目********
<0> SCore-D:DEBUG sizeof(Cluster)=4556
<0> SCore-D:DEBUG sizeof(Job)=7308
<0> SCore-D:DEBUG sizeof(Allocation)=32
<0> SCore-D:DEBUG sizeof(SchedQueue)=280
<0> SCore-D:DEBUG sizeof(FEP)=14272
<0> SCore-D:DEBUG sizeof(Subjob)=6124
<0> SCore-D:DEBUG sizeof(ControlTree)=1572
<0> SCore-D:DEBUG sizeof(PE)=15204
<0> SCore-D:DEBUG sizeof(PPE)=4236
<0> SCore-D:DEBUG sizeof(PeGroup)=5148
<0> SCore-D:DEBUG sizeof(Timer)=52
<0> SCore-D:DEBUG sizeof(NetworkContext)=176
<0> SCore-D:DEBUG sizeof(SocketAddress)=136
<0> SCore-D:DEBUG sizeof(Carea)=71072
<0> SCore-D:DEBUG numNode=4
<0> SCore-D:TRACE(../init.cc:168) >> initialize_host()
<0> SCore-D:DEBUG >> initialize_syslog(:0)
<0> SCore-D:DEBUG << initialize_syslog(0)
途中略
<0> SCore-D:TRACE(../subjob.cc:225)    free_subjob()
<0> SCore-D:TRACE(../subjob.cc:232)    free_subjob()
<0> SCore-D:DEBUG fepio_close()
<0> SCore-D:DEBUG fepio_close_fd()
<0> SCore-D:TRACE(../fepio.cc:134) FEP_MESG_LOCK
<0> SCore-D:TRACE(../subjob.cc:236)    free_subjob()
<0> SCore-D:TRACE(../subjob.cc:241) << free_subjob()
<0> SCore-D:DEBUG >> finalize_host(0)
<0> SCore-D:TRACE(../scoredir.cc:389) cleanup_scored_dir()
<1> SCore-D:DEBUG >> finalize_host(0)
<1> SCore-D:TRACE(../scoredir.cc:389) cleanup_scored_dir()
<0> SCore-D:DEBUG << finalize_host()
<1> SCore-D:DEBUG << finalize_host()
**************************




--------------------------------------
[10th Anniversary] special auction campaign now!
http://pr.mail.yahoo.co.jp/auction/



SCore-users-jp メーリングリストの案内