[SCore-users-jp] SCore-D:PANIC Network freezing timed out !!

Atsuo Tanaka atanaka @ fqs.fujitsu.com
2004年 11月 25日 (木) 16:33:08 JST


富士通九州システムエンジニアリングの田中です。

SCore-D:PANIC Network freezing timed out !!

というメッセージが出て実行できません。
どなたか、解決方法をご存知でしたら、ご教授ねがいます。

[現象]

あるアプリケーションをSCore で並列計算を行った所,以下のエラーメッ
セージを残して計算が強制終了されてしまう.

      <10> SCore-D:PANIC Network freezing timed out !!
      SCORE: Killing ...

    上記症状は,再現性はなく(落ちる箇所は一定ではない),数時間走った後
    落ちる場合もあれば,15 分程度で落ちてしまう場合もある.最近では一晩
    以上走る事はほとんどない.
    当アプリケーション は PGI FORTRAN によりコンパイルされているが,ほぼ同構成の
    クラスタシステムにおいて,全く同一のモジュールは長時間(半日以上)
    問題なく計算が行われた実績があり,何度も計算テストは行ったが,上記
    エラーメッセージで落ちた経験はない.
	なお, ノード内通信を使用する場合(-nodes=Nx2指定)に限って発生する様子.
	

[マシンの概要]

    それぞれ 2 CPU をもつ,以下のような 4 つのホストによるクラスタシステム.

      saturn1(管理ホスト)
      saturn2
      saturn3
      saturn4

    saturn1 の /home を saturn2-4 が NFS マウントしている.
    また,RAIDディスクが saturn1 の /work にぶら下がっており,saturn2-4 が
    同様に NFS マウントしている.
    当アプリケーションモジュールは /home 以下のディレクトリに存在し,
    計算結果は /work 以下に書き出す仕様となっている.

[これまでに行った対策と結果]

    ・RAID ディスクには全くアクセスしないようにして計算を実行してみたが,
      計算は数十分で上記エラーにより強制終了された.
    ・/opt/score/etc/pm-ethernet.conf の maxnsend, backoff を適用に
      変更して計算を実行してみたが,最終的には上記エラーにより強制
      終了される.
    (エラーにより停止するまでの時間に,設定による系統的な違いは認
      められなかった)
    ・gigaスイッチを変更してみたが, (corega GSW-8 -> netgear) 
	  変化は見られなかった. 
    ・発生時のノード指定は4x2であったが, 3x2,2x2でも発生する.
     ノード内並列指定なし(4x1)の場合には現象は収まった.


環境についてですが、

マシン : RX200 * 4台(Dual CPU)
OS     : RedHat8
Score  : 5.6.1
コンパイラ : PGI

です。




SCore-users-jp メーリングリストの案内