[SCore-users-jp] Re:[SCore-users-jp]OpenMPでのスタック

k-ikegami @ aj.jp.nec.com k-ikegami @ aj.jp.nec.com
2004年 7月 2日 (金) 10:58:40 JST


池上です。

6月22日に、OpenMP環境でスタックする件について
ご相談させて頂き、物理メモリ不足では?という結論に落ち
つきましたが、メモリを少し増設(1G→1.5G)して見たところ、
 <0> SCORE WARNING: Physical memory might be exhausted.
のメッセージは出なくなりました。
そこで安心していたら、連続動作2日目に今までと同様の症状で
スタックしてしまいました。
新たな発見として、/var/log/messegeの中に、
スタックとほぼ同じ時間に”kernel: flag is not online"というログが
出力されていました。
何だろうと思い手当たり次第に検索してみたところ、

http://www.pccluster.org/score/dist/pub/score-5.4.0/source/linux2.4.19.score.patch
の中のpm_ethernet_rmawrite()の中に以下のコードがありました。

+	if(!(ctx->flags&EPM_ONLINE)) {
+		printk("flag is not online\n");
+		return -EBUSY;
+	}

このif文が何を判定しているのか?ご教授頂けないでしょうか?
自分で調べると年が明けてしまいそうなので。。。
よろしくお願いいたします。

2004/06/24 11:32:29 +0900にk-ikegami @ aj.jp.nec.comさんに頂いた
「[SCore-users-jp] Re:[SCore-users-jp]OpenMPでのスタック」への返事です。
>佐藤様
>亀山様
>
>池上です。
>やはり、メモリ不足ですか。
>メモリ不足の場合に、プロセスが終了せずにノード間通信待ちのような
>状態でスタックするという動きが釈然としない(注1)のですが、とりあえず
>メモリを増やして試してみます。(アプリのバグかな?)
>
>(注1)メモリを意図的に少しずつ食いつぶすプログラムを並行して動かしたところ、
>    プロセス終了したため。
>
>ありがとうございました。
>
>2004/06/24 03:14:35 +0900にMitsuhisa Sato <msato @ is.tsukuba.ac.jp>さんに頂いた
>「Re: [SCore-users-jp] Re:[SCore-users-jp]OpenMPでのスタック」への返事です。
>>池上様、
>>多分、実メモリがたりないのではないかとおもいます。
>>現在のOmni/SCASHでは、共有するメモリは全てpin-downしてなくてはならない、
>>すなわち、物理メモリがなくてはなりません。
>>
>>実際に大きな問題に適用しようとおもうとこの問題は深刻な問題になります。
>>いま、開発を進めている次のversionではこれを解決する見込みですが、...
>>
>>とりいそぎ。
>>さとう。
>>
>>From: k-ikegami @ aj.jp.nec.com
>>Subject: [SCore-users-jp] Re:[SCore-users-jp]OpenMPでのスタック
>>Date: Wed, 23 Jun 2004 18:12:27 +0900
>>
>>> 亀山様
>>> 
>>> 池上です。いろいろありがとうございます。
>>> 
>>> >
>>> >ところで, どれくらい memory を持っていて
>>> >どれくらい swap されているのでしょうか?
>>> >あと, 参考までに host 間の通信は何を使用しているでしょうか?
>>> 
>>> 物理メモリ:1GByte
>>> SWAP :2GByte
>>> 
>>> スタック後にvmstatで状況を確認したところ、
>>> SWAP使用=286MByteでした。
>>> 
>>> 常時スワップが発生しているので、物理メモリが絶対的に少ないことは
>>> 理解しているのですが、増設するにしても、本現象がメモリ不足が原因か
>>> 否かの特定をしたいので。。
>>> 
>>> 尚、ネットワークは、下記のギガビットイーサを使用しており、プロセッサに
>>> 2つのNICを差し、SCore用とその他(計算結果の送信)用に分けています。
>>> 
>>> プロセッサ NEC Express5800/120Rd-1
>>> NIC×2:チップ Intel 82546EB
>>>       ドライバ e1000(5.2.16)
>>> 
>>> 
>>> 以上、よろしくお願いいたします。
>>> 
>>> /*----------------------------------------------*/
>>> // 池上 光太郎 e-mail: k-ikegami @ aj.jp.nec.com
>>> // TEL : 042-333-5470          FAX : 042-333-5267
>>> // 日本電気株式会社 電波応用事業部 航空システム部
>>> _______________________________________________
>>> SCore-users-jp mailing list
>>> SCore-users-jp @ pccluster.org
>>> http://www.pccluster.org/mailman/listinfo/score-users-jp
>>> 
>>_______________________________________________
>>SCore-users-jp mailing list
>>SCore-users-jp @ pccluster.org
>>http://www.pccluster.org/mailman/listinfo/score-users-jp
>/*----------------------------------------------*/
>// 池上 光太郎 e-mail: k-ikegami @ aj.jp.nec.com
>// TEL : 042-333-5470          FAX : 042-333-5267
>// 日本電気株式会社 電波応用事業部 航空システム部
>_______________________________________________
>SCore-users-jp mailing list
>SCore-users-jp @ pccluster.org
>http://www.pccluster.org/mailman/listinfo/score-users-jp
/*----------------------------------------------*/
// 池上 光太郎 e-mail: k-ikegami @ aj.jp.nec.com
// TEL : 042-333-5470          FAX : 042-333-5267
// 日本電気株式会社 電波応用事業部 航空システム部



SCore-users-jp メーリングリストの案内