[SCore-users-jp] [54] MTMI: fatal error (0x1): score_attach_network() failed: 12 <13> SCORE: Program signaled (Aborted).について

鈴木 陽介 yosukeys @ yahoo.co.jp
2012年 7月 11日 (水) 19:59:28 JST


竈山様
神奈川大学 鈴木陽介です。

よくわからなくなりました。

64 nodes (16x4) readyまで、うまくいくようになりました。
ただし、時々落ちます。やはり、メモリーなのしょうか?

[60] MTMI: fatal error (0x1): score_attach_network() failed: 12
<15> SCORE: Program signaled (Aborted).

計算ホストをrebootして、

http://www.pccluster.org/score_doc/score-7.0.1/SetupSCore.txtの手順どおり
実行したところ、

#  scrun -group=machinefile -node=16x4 -network=ethernet ./a.out
SCore (7.0.1) Connected
SCORE{1} 64 nodes (16x4) ready.
Hello !! from host001.pccluster.org @ 0/64
Hello !! from host001.pccluster.org @ 2/64
Hello !! from host001.pccluster.org @ 3/64
Hello !! from host005.pccluster.org @ 16/64
Hello !! from host007.pccluster.org @ 24/64
Hello !! from host004.pccluster.org @ 12/64
Hello !! from host002.pccluster.org @ 4/64
Hello !! from host008.pccluster.org @ 28/64
Hello !! from host007.pccluster.org @ 25/64
Hello !! from host004.pccluster.org @ 13/64
Hello !! from host008.pccluster.org @ 29/64
Hello !! from host005.pccluster.org @ 17/64
Hello !! from host007.pccluster.org @ 26/64
Hello !! from host002.pccluster.org @ 5/64
Hello !! from host004.pccluster.org @ 14/64
Hello !! from host005.pccluster.org @ 18/64
Hello !! from host008.pccluster.org @ 30/64
Hello !! from host011.pccluster.org @ 40/64
Hello !! from host010.pccluster.org @ 36/64
Hello !! from host011.pccluster.org @ 41/64
Hello !! from host010.pccluster.org @ 37/64
Hello !! from host012.pccluster.org @ 45/64
Hello !! from host011.pccluster.org @ 42/64
Hello !! from host010.pccluster.org @ 38/64
Hello !! from host012.pccluster.org @ 46/64
Hello !! from host012.pccluster.org @ 47/64
Hello !! from host002.pccluster.org @ 7/64
Hello !! from host001.pccluster.org @ 1/64
Hello !! from host005.pccluster.org @ 19/64
Hello !! from host007.pccluster.org @ 27/64
Hello !! from host008.pccluster.org @ 31/64
Hello !! from host009.pccluster.org @ 32/64
Hello !! from host009.pccluster.org @ 33/64
Hello !! from host009.pccluster.org @ 35/64
Hello !! from host013.pccluster.org @ 48/64
Hello !! from host013.pccluster.org @ 49/64
Hello !! from host013.pccluster.org @ 50/64
Hello !! from host013.pccluster.org @ 51/64
Hello !! from host016.pccluster.org @ 62/64
Hello !! from host016.pccluster.org @ 60/64
Hello !! from host015.pccluster.org @ 57/64
Hello !! from host014.pccluster.org @ 54/64
Hello !! from host015.pccluster.org @ 59/64
Hello !! from host015.pccluster.org @ 58/64
Hello !! from host015.pccluster.org @ 56/64
Hello !! from host016.pccluster.org @ 61/64
Hello !! from host003.pccluster.org @ 8/64
Hello !! from host016.pccluster.org @ 63/64
Hello !! from host002.pccluster.org @ 6/64
Hello !! from host004.pccluster.org @ 15/64
Hello !! from host006.pccluster.org @ 20/64
Hello !! from host010.pccluster.org @ 39/64
Hello !! from host006.pccluster.org @ 21/64
Hello !! from host006.pccluster.org @ 22/64
Hello !! from host006.pccluster.org @ 23/64
Hello !! from host014.pccluster.org @ 52/64
Hello !! from host014.pccluster.org @ 53/64
Hello !! from host014.pccluster.org @ 55/64
Hello !! from host011.pccluster.org @ 43/64
Hello !! from host012.pccluster.org @ 44/64
Hello !! from host009.pccluster.org @ 34/64
Hello !! from host003.pccluster.org @ 9/64
Hello !! from host003.pccluster.org @ 10/64
Hello !! from host003.pccluster.org @ 11/64

さてチューニングに話ですが、

> dmesg で見ればどの memory の確保で失敗したかが分かりますが...)

dmesg  | grep 引数 で検索できるようですが、

引数は何を割り当てれば、dmesg のログから、問題解決に必要なログ
をピックアップできるのでしょうか?


以 上

--- On Wed, 2012/7/11, Kameyama Toyohisa <kameyama @ pccluster.org> wrote:

> 亀山です.
> 
> (2012年07月11日 11:59), 鈴木 陽介 wrote:
> > A.OUT @ host008[30/64:2/4]#7840:   CALL pmEthernetSetupContext() at ethernet.c:178 !!ERROR!! cannot set key 16. errno is 12
> 
> PMX/Ethernet は通信のための memory を確保しているのですが,
> その memory の確保に失敗しているようです.
> (dmesg で見ればどの memory の確保で失敗したかが分かりますが...)
> 
> 計算ホストにどれくらいの memory がありますでしょうか?
> 他の process やドライバがメモリを占有していないでしょうか?
> 
> Kameyama Toyohisa
> 



SCore-users-jp メーリングリストの案内