Linux 又はハードウェアの問題点


  1. Ethernet ドライバ - tulip および de4x5
    Ethernet ドライバが tulip あるいは de4x5 である場合、 通信トラフィックが重いとネットワークがフリーズすることがあります。 この問題は使用するカードとドライバのバージョンに依存します。 以下の構成で問題が確認されています:
                                 tulip     de4x5
    Alpha 21164 + DC21140 NIC    安定      不安定
    Pentium Pro + DC21140 NIC    安定      安定
    Alpha 21264 + DC21143 NIC    不安定    安定
    
  2. Ethernet ドライバ - eepro100
    eepro100 のドライバにはいくつかのバージョンがあります。

    この問題はドライバのバージョンと EEPRO100 カードのリビジョンに依存します。 いくつかの EEPRO100 カードのリビジョンについての私たちの経験は以下のとおりです:
    バージョン送信の問題sk_buff の問題
    v1.06 10/16/98 in Redhat 6.1問題なし問題あり
    v1.08 5/3/99問題あり問題なし
    v1.09r2 10/15/99 in SuSE 6.3問題なし問題なし
    v1.09j-t 9/29/99問題なし問題なし

    SCore 3.1 ディストリビューションは v1.09j-t バージョンを同梱しています。

    sk_buff に関連した問題:
    eepro100 ethernet ドライバを使うと、sk_buff (Linux カーネル内の通信バッファ) はカーネルメモリを使い尽くし、 システムダウンを引き起こす可能性があります。 この現象は、ドライバの送信バッファが埋め尽くされている場合に起きます。 ネットワークでハブのの代わりにスイッチを使い、大きなメッセージを送信する アプリケーションを実行しないならこの問題に会うことはないと思われます。

    ともかく、sk_buff ヘッドキャッシュのサイズが増大していないかどうか に気をつけることが望まれます。 ヘッドキャッシュの使用量を知るには /proc/slabinfo を見てください:

    	$ cat /proc/slabinfo
    	.....
    	.....
    	skbuff_head_cache     20      105
            .....
    
    もしサイズが急速に増加するなら、システムはそのうちフリーズするでしょう。

  3. Pentium II Deschutes
    PM/Myrinet は Pentium II Deschutes stepping 1 チップでは動作しません。 インテルのドキュメントで報告されているエラー A37 が stepping 1 上での問題の原因と思われます。 http://developer.intel.com/design/pentiumii/specupdt/243337.htm を参照してください。 以下のプロセッサは Deschutes stepping 1 を使っている可能性があります:

    もしこれらのプロセッサを使っているなら、チェックすることをおすすめします。 Linux 上であれば、次のようにしてください:

    $ cat /proc/cpuinfo
    ....
    model        : Pentium II (Deschutes)
    vender_id    : .......
    stepping     : 1
    ....
    
    私たちがテストした限りにおいては、他の Pentium II チップは問題ありません。

  4. Myrinet
    1. いくつかの Myrinet カードに発熱の問題があることが確認されています。 もし同様の問題に出会ったなら、そちらの配給元にご相談ください。
    2. 我々は1998年12月以後に作られた Myrinet カードでテストを行いました。 それ以前に作られたカードは正確に動作しないものがあることが分かっています。
    3. LANai 4.X と LANai 7.X 以降の Myrinet NIC 間では PM/Myrinet の通信が行 なえません。これは PM/Myrinet の LANai ファームウェアに起因します。

  5. Compaq Alpha SMP上でのPM/Ethernetの動作
    Compaq Alpha SMP上でのPM/EthernetはAlpha SMPのカーネルの問題により、良 好な性能が得られていません。Linux 2.3.99-pre4のカーネル上での試験的な 実装ではこの問題が起こっていないことを確認しています。ユニプロセッサ上 のPM/Ethernetでは問題ありません。また、PM/Myrinetなど他のPMデバイスも 問題ありません。

    もし、Compaq Alpha SMP 上でPM/Ethernetを利用する場合は、2.2.16よりも新 しいバージョンを利用して下さい。これより古いバージョンの場合はカーネル がハングアップすることが分かっています。



PCCC logo PCクラスタコンソーシアム


CREDIT
This document is a part of the SCore cluster system software developed at PC Cluster Consortium, Japan. Copyright (C) 2003 PC Cluster Consortium.