[SCore-users-jp] PM/Ethernet 通信エラー

Kameyama Toyohisa kameyama @ pccluster.org
2007年 6月 14日 (木) 10:18:52 JST


亀山です.

Kuniko Hayakawa さんは書きました:
> 住元様のメールに有りました、dbファイルについてはガイドに従い4台から5台
に変えてあり、
> scoreboardとmsgb serversの再始動を何回か行って見ましたがうまくいきませ
んでした。
> pm-ethernet.confは5台に一応なっていました。
>
> 亀山様のメールに有りました問題点ですが、
>> まず, 問題点の整理から...
>> 追加はどのように行ったのでしょうか?
>> 1. 4 台の環境をすててあらためて 5 台を install
>> 2. 新しいホストのみに install して config file のみを修正
>>
> 2のケースを行いました。
> 新しいホストのみにFedora3とSCore5。8。3をinstallし、dbファイルやhosts
ファイル等の設定ファイルを変えました。
>
>> 両者について, 古い 4 台のみで実行した場合. 問題無くうごくでしょうか?
>> たとえば, 古い host が comp0, comp1, comp2, comp3 で新規に comp4
>> を追加し, pcc というグループを作って
>>
>> % scout -g pcc
>> % scstest -network ethernet
>>
>> に失敗しているとき,
>>
>> % scout -g pcc~comp4
>> % scstest -network -ethernet
>>
>> は成功するかどうかということです.
>> (これで成功した場合, 5 台目だけを疑えば良いことになります.)
> dbファイルのグループを元に戻し(つまり古い4台のみ)、チェックしてみまし
たが、
> これでもエラーが出るようになってしまいました。

db ファイルを変更する必要はなかったのですが...
scorehost のマニュアル

http://www.pccluster.org/score/dist/score-5.8.3/html/ja/man/man1/scorehosts.html
に書かれている + ~ などの記述が SCore プログラムでグループを指定できる
すべての場所で使用可能です.
db にそのホストがかかれていれば, + でそのホストを追加したり,
~ でそのホストを削除したりできます.

> エラーは以下のようです。
>
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
> -config:file=/opt/score5.8.3/etc/pm-ethernet.conf
> type=ethernet
> SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16)
>  0 ->  2: 4608(1200) -> 4609(1201): 0(0)

host0 から host2 への通信でシーケンス番号 4608 を期待していたところ
4609 が届いてエラーを起こしています.

> {2} 0 send=433 recv = 4608
> {2} 1 send=481 recv = 648
> {2} 2 send=0 recv = 0
> {2} 3 send=427 recv = 718
> {2} 0 send=433 recv = 4620
> {2} 1 send=481 recv = 648
> {2} 2 send=0 recv = 0
> {2} 3 send=427 recv = 721
> teofarm2( 2) burst: pmGetSendBuffer: Connection timed out(110)

host2 が通信したシーケンス番号です.

> {0} 0 send=0 recv = 0
> {0} 1 send=4911 recv = 808
> {0} 2 send=4777 recv = 341
> {0} 3 send=4776 recv = 874

host0 のものです.
host2 との数があっていません...
send は host2 が止まってからも送信したものとしても,
host2 が送信した 433 のうち, 341 しか受信していません.

> {3} 0 send=874 recv = 4776
> {1} 0 send=808 recv = 4911
> {1} 1 send=0 recv = 0
> {1} 2 send=829 recv = 481
> {1} 3 send=787 recv = 911
> teofarm1( 1) burst: pmGetSendBuffer: Connection timed out(110)
> teoworld( 0) burst: pmGetSendBuffer: Connection timed out(110)
> {3} 1 send=911 recv = 787
> {3} 2 send=866 recv = 427
> {3} 3 send=0 recv = 0

host1, host3 は少なくても host2 で送ったものは受信しているようですが...
host0, host1, host3 の相互間では一致していますね.

原因は host2 (もしくは host0 と host2 の間の通信?) にありそうな気がします...
(host0 だけ送信がかなり多いのも若干気になるところですが...
host0 だけ NIC か CPU が良い?)

とりあえず, 以下の順序でテストでしょうか?
1. host0, host1, host3 の 3 台で scstest を行って, 3 台で問題のないこと
を確認
   うまくいかない場合は host1, host2, host3 で行ってみる.
2. 上記に, 今回参加していない host4 を追加した 4 台で大丈夫か確認
3. host0 と host2 などうまくいかない host 間で point-to-point test.

Kameyama Toyohisa



SCore-users-jp メーリングリストの案内