[SCore-users-jp] SCore-D:PANIC Network freezing timed out

Teiji Matsuzaka matsuzaka @ st-systems.co.jp
2004年 3月 31日 (水) 17:19:55 JST


亀山様

松阪で御座います。
ご返答有難う御座います。

(1) machine 構成について
    同機種で揃えておりますが購入時期が異なるためにスペックが
    変更されております。

    既存分 70ノード: マスターノード(0番)+計算ノード(1〜69番)
        CPU                   :Xeon × 2 (周波数は確認致します)
        メモリ                :2GB
        ネットワークモジュール:broadcom5703

    増設分 42ノード: 計算ノード(70〜111番)
        CPU                   :Xeon 3GHz × 2 (周波数は確認致します)
        メモリ                :2GB
        ネットワークモジュール:broadcom5703

    残っているログの一部を見ると次の様になっておりまして既存
    ノードと増設ノードを使用して計算が成功しておりました。

        成功  : 使用ノード 65〜77
        エラー: 使用ノード 91〜103

(2) switch 間の速度について
    既存の構成から変更した部分でもありますので確認を行おうと
    思います。また質問することも有ると思いますが宜しくお願い
    致します。有難う御座いました。

以上

On Tue, 30 Mar 2004 09:35:12 +0900
kameyama @ pccluster.org wrote:

> 亀山です.
> 
> In article <20040326150904.F6B1.MATSUZAKA @ st-systems.co.jp> Teiji Matsuzaka <matsuzaka @ st-systems.co.jp> wrotes:
> > 1ノード2CPUの112ノード構成のLinuxクラスタを構築し
> > Open PBS/SCoreからNPB2.4のsp.A.25を何回か実行した
> > ところ次の様なエラーが発生しました。
> > scored を使用して別の計算を行った時も同じエラーが
> > 発生します。正常終了する場合もあります。
> 
> 正常終了する場合としない場合で, machine 構成に
> 違いはないでしょうか?
> 
> > 【ネットワークモジュール】
> > 昨年6月に導入した70ノード: broadcom5703
> > (安定稼動していたシステムです)
> > 増設分          42ノード: broadcom5704
> > (増設後に今回のエラーが発生しております)
> 
> 112 host ということは多分, 複数の switch を使用している
> わけですよね?
> 
> その switch 間の速度がでない状態で,
> 割り当てられた 13 台が複数の host に分散されているため,
> data 転送がつまってしまっているということはありませんでしょうか?
> 
>                        from Kameyama Toyohisa
> _______________________________________________
> SCore-users-jp mailing list
> SCore-users-jp @ pccluster.org
> http://www.pccluster.org/mailman/listinfo/score-users-jp





SCore-users-jp メーリングリストの案内