PM/Myrinet のテスト方法

このテスト方法は server で X window システムが既に動いていることを前提 とします。全てのコマンドは server host 上で呼び出されます。LANai7 が載った Myrinet NIC (M2M-PCI64A, M2L-PCI64A and M2M-PMC64A) の場合、事 前にケーブルが正しく接続されていることを確認してください。

もし、利用しているMyrinetがシリアルかファイバの Myrinet 2000 (M3S-PCI64BやM3F-PCI64B)の場合は ネットワークタイプをmyrinet2k、ファー ムウェアはlanaiM2k.mcpを利用して下さい。rpmtestとscstestでこれらを利用 すはサーバ上のscorehosts.dbを変更する必要があります。ServerへのSCore Systemのインストール を参照して下さい。

利用しているネットワークがMyrinet 2000の場合は、以下のコマンドのネットワークタイプ指定myrinetmyrinet2kに変更して下さい。
Ex. $ ./rpminit comp0 myrinet2k

  1. ループバック テスト
    以下のコマンドを実行します:
    $ cd /opt/score/sbin
    $ ./rpminit comp0 myrinet
    $ ./rpmtest comp0 myrinet -dest 0 -ping
    	成功: "8     1.2269e-05" のような2つの数字が表示されます
                     1番目の数字はデータのサイズ(byte)です
                     2番目の数字はレイテンシ(秒)です
    	失敗: エラーとダンプメッセージが表示されます
    
    このテストが失敗した場合は、トラブルシューディングを参照してください。

  2. Point-to-Point テスト (メッセージ)
    PM カーネルドライバが全てのホスト上にインストール済みであることを確認してください。 PM の通信機能をテストするためには、rpmtest コマンドを使用します。 たとえば、comp0 (ノード 0) から comp1 (ノード 1) へ 通信できるかどうかをテストしたい場合は次のようにしてください。

    以下のコマンドを実行します:

    $ cd /opt/score/sbin
    $ ./rpmtest comp1 myrinet -reply
    
    server host の別のウィンドウで次のコマンドを実行します:
    $ cd /opt/score/sbin
    $ ./rpmtest comp0 myrinet -dest 1 -ping
    	ループバックテストと同じ結果にならなければなりません
    
    テストを終えるときは、プロセスが無限ループしているので、server host 上の pmtest プロセスを kill するのを忘れないでください。 このテストが失敗した場合は、トラブルシューディングを参照してください。

  3. Point-to-Point テスト (ゼロコピー)
    comp0 (ノード 0) から comp1 (ノード 1) へ 通信できるかどうかをテストしたい場合は次のようにしてください。

    以下のコマンドを実行します:

    $ cd /opt/score/sbin
    $ ./rpmtest comp1 myrinet -vreply
    
    server host の別のウィンドウで次のコマンドを実行します:
    $ cd /opt/score/sbin
    $ ./rpmtest comp0 myrinet -dest 1 -vwrite
    	成功: "8     913452" のような2つの数字が表示されます
                     1番目の数字はデータのサイズ(byte)です
                     2番目の数字はバンド幅(bytes/sec)です
    	失敗: エラーとダンプメッセージが表示されます
    
    テストを終えるときは、プロセスが無限ループしているので、server host 上の pmtest プロセスを kill するのを忘れないでください。 このテストが失敗した場合は、トラブルシューディングを参照してください。

  4. 総合テスト
    これはストレステストです。 全てのホストがランダムに巨大なメッセージを他のホストに送信します。 次のコマンドを実行します:
    $ cd /opt/score/deploy
    $ scout -g pcc
    SCOUT: Spawn done.
    SCOUT: session started
    $ ./scstest -network myrinet
    CSTEST: BURST on myrinet
    50 K messages.
    100 K messages.
    150 K messages.
    200 K messages.
    250 K messages.
    300 K messages.
            成功: 転送されたメッセージ数が表示されます
            失敗: エラーメッセージが表示されます
    
    このテストを止めるには Ctrl-C 押すか他の中断コマンドを実行してください。
    このテストが失敗した場合は、トラブルシューディングを参照してください。

トラブルシューディング

Pminit が原因の失敗
ループバックテストが失敗
Point-to-point テストが失敗
総合テストが失敗
シリアルとファイバネットワークを持つMyrinet 2000に置けるトラブルシュー ティング(M3S-PCI64B、M3F-PCI64B).(new)

CREDIT
This document is a part of the SCore cluster system software developed at PC Cluster Consortium, Japan. Copyright (C) 2003 PC Cluster Consortium.