[SCore-users-jp] SCore-D PanicとBroadcom5704 NIC使用時の問題について

Masayasu Iida iida @ st-systems.co.jp
2004年 4月 6日 (火) 00:11:23 JST


サイエンステクノロジーシステムズの飯田と申します。

マスターノード:1ノード、計算ノード:111ノードという構成で
SCore5.6.1を使用してクラスタにNas Parallelベンチマークを
流しているのですが2点問題が出ております、
アドバイス頂けますと幸いです。

○問題点
1. NAS Parallelベンチマーク実行中に、
  SCore-D Panic freezing timed outが頻発する。
  その際にはノードがロックされ次のジョブを実行できない。

2. BroadCom5704での性能が出ない。
  rpmtestのpingpongテストの値:8 0.00309027
scstestのバーストテスト時も50k 100k 150kとメッセージ数が
  上がる際、1秒以上待たされる感じで非常に遅い。

○構成について
70ノード: CPU Xeon 2.4GHz x 2 NIC: BroadCom5703
42ノード: CPU Xeon 2.8GHz x 2 NIC: BroadCom5704

14ノード毎にL2スイッチに接続され、合計8つのスイッチが
さらに上位のL2スイッチに接続されています。

70ノードはこれまでSCore5.4.0を使用しNPBも問題なく動作して
いた実績があります。今回、新規に42ノードを追加しSCore5.6.1
でクラスタを再構築しています。また、上位のスイッチを
別メーカーのものに変更しています。
ネットワークはGigaEthernetを使用しています。

カーネルは2.4.21カーネルにパッチを当ててコンパイルしています。

NICのドライバは70ノード(BroadCom 5703)については
2.4.21カーネルに含まれるbcm5700(Ver. 5.0.5)を使用しています。

42ノード(BroadCom 5704)は2.4.21カーネルのbcm5700
自体はロードされるのですが、eth0 Link downとなり
通信ができないため、BroadComのサイトからダウンロードした
Ver7.1.9またはVer7.1.22のbcm5700をコンパイルし使っています。

マスタノードは計算ノードに含めずカーネルはRedHatの
2.4.20-28を使用しています。

NPBはSCore-Dを起動した状態で、scrunコマンドを使って
シェルまたはOpenPBSを使って連続的に流しています。
但し、ジョブとジョブの間にはsleepを入れるようにしています。

○1の問題に関する検証について
1.スイッチについて
SCore-D Panicの原因として変更したスイッチの可能性を
考え、14ノード(今回変更したスイッチとは別の元々使用していた
下位のスイッチのみ使用)で同様にNPBを流しましたが、
やはり同様の現象が出ました。

2.maxsendとbackoffの調整
maxsendとbackoffをそれぞれ下記のように変更して
試しましたが、現象が発生。

maxsend backoff
8 2400
16 3600
32 7200

3.カーネルの変更
独自にコンパイルしたものではなくEITを使ってインストール
されるカーネルを使用しジョブを流しましたが、
やはり同様の現象が起こります。

○2の問題に関する検証について
linux-2.4.21に含まれるbcm5700のバージョンを
7.1.9、7.1.22に変更して見ましたが、
scstest時の動作は変わりません。

チェックすべき事項がございましたら、アドバイス
頂けますと幸いです。

------------------------------------------------
飯田 昌康
サイエンス・テクノロジー・システムズ株式会社
システム部
Tel:03-5774-6833 Fax:03-5774-5180
E-mail: iida @ st-systems.co.jp
Web: http://www.st-systems.co.jp
〒150-0002 東京都渋谷区渋谷1-20-1 三進ビル4F
------------------------------------------------






SCore-users-jp メーリングリストの案内