From fruttac @ hotmail.com Tue Jun 12 23:20:36 2007 From: fruttac @ hotmail.com (Kuniko Hayakawa) Date: Tue, 12 Jun 2007 14:20:36 +0000 Subject: [SCore-users-jp] =?utf-8?b?UE0vRXRoZXJuZXQg6YCa5L+h44Ko44Op44O8?= Message-ID: はじめまして、早川久仁子と申します。 これまで4台のサーバーでSCoreを使用していたのですが、今回1台増やすことにしました。 Linux (Fedora Core 3) とSCore 5.8.3をinstallし、いざPMテストをしたところ 成功しません。 4台の時は何の問題もなく動いたので、どこが問題なのか分かりません。 設定ファイルをチェックしたのですが、他のサーバーと同じでした。 scstestも行った (scstest -network ethernet -count 1 -burst) ところ、 count 1 でも動きません。 ほとんどお手上げ状態で、これまでのmailingリストを読んでいるのですが 何を次にするべきなのか分かりません。何かこの問題を解く方法が有りますでしょうか? 宣しくお願いいたします。 _________________________________________________________________ Play free games, earn tickets, get cool prizes! Join Live Search Club.? http://club.live.com/home.aspx?icid=CLUB_wlmailtextlink From kameyama @ pccluster.org Wed Jun 13 10:58:23 2007 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Wed, 13 Jun 2007 10:58:23 +0900 Subject: [SCore-users-jp] PM/Ethernet =?ISO-2022-JP?B?GyRCREw/LiUoGyhC?= =?ISO-2022-JP?B?GyRCJWkhPBsoQg==?= In-Reply-To: References: Message-ID: <466F4F3F.5080008@pccluster.org> 亀山です. Kuniko Hayakawa さんは書きました: > これまで4台のサーバーでSCoreを使用していたのですが、今回1台増やすこと にしました。 > Linux (Fedora Core 3) とSCore 5.8.3をinstallし、いざPMテストをしたとこ ろ 成功しません。 > 4台の時は何の問題もなく動いたので、どこが問題なのか分かりません。 まず, 問題点の整理から... 追加はどのように行ったのでしょうか? 1. 4 台の環境をすててあらためて 5 台を install 2. 新しいホストのみに install して config file のみを修正 両者について, 古い 4 台のみで実行した場合. 問題無くうごくでしょうか? たとえば, 古い host が comp0, comp1, comp2, comp3 で新規に comp4 を追加し, pcc というグループを作って % scout -g pcc % scstest -network ethernet に失敗しているとき, % scout -g pcc~comp4 % scstest -network -ethernet は成功するかどうかということです. (これで成功した場合, 5 台目だけを疑えば良いことになります.) Kameyama Toyohisa From s-sumi @ labs.fujitsu.com Wed Jun 13 13:30:09 2007 From: s-sumi @ labs.fujitsu.com (Shinji Sumimoto) Date: Wed, 13 Jun 2007 13:30:09 +0900 (JST) Subject: [SCore-users-jp] PM/Ethernet =?iso-2022-jp?B?GyRCREw/LiUoJWkhPBsoQg==?= In-Reply-To: References: Message-ID: <20070613.133009.1723233544.s-sumi@labs.fujitsu.com> 早川様 富士通研の住元です。 SCoreのサーバの設定ファイルはどうなっていますでしょうか? SCoreのドキュメントのインストールガイドの http://www.pccluster.org/score/dist/score/html/ja/installation/index.html サーバの設定 /opt/score/etcの下のファイルの設定は以前の4ノードのもの から、5ノードのものに修正されていますでしょうか? http://www.pccluster.org/score/dist/score/html/ja/installation/sys-server.html http://www.pccluster.org/score/dist/score/html/ja/man/man5/pm-ether-conf.html を記述を参考に確認していただけないでしょうか? From: Kuniko Hayakawa Subject: [SCore-users-jp] PM/Ethernet 通信エラー Date: Tue, 12 Jun 2007 14:20:36 +0000 Message-ID: fruttac> fruttac> はじめまして、早川久仁子と申します。 fruttac> これまで4台のサーバーでSCoreを使用していたのですが、今回1台増やすことにしました。 fruttac> Linux (Fedora Core 3) とSCore 5.8.3をinstallし、いざPMテストをしたところ 成功しません。 fruttac> 4台の時は何の問題もなく動いたので、どこが問題なのか分かりません。 fruttac> 設定ファイルをチェックしたのですが、他のサーバーと同じでした。 fruttac> scstestも行った (scstest -network ethernet -count 1 -burst) ところ、 count 1 でも動きません。 fruttac> ほとんどお手上げ状態で、これまでのmailingリストを読んでいるのですが fruttac> 何を次にするべきなのか分かりません。何かこの問題を解く方法が有りますでしょうか? fruttac> 宣しくお願いいたします。 fruttac> fruttac> _________________________________________________________________ fruttac> Play free games, earn tickets, get cool prizes! Join Live Search Club.? fruttac> http://club.live.com/home.aspx?icid=CLUB_wlmailtextlink ------ Shinji Sumimoto, Fujitsu Labs From fruttac @ hotmail.com Thu Jun 14 01:55:51 2007 From: fruttac @ hotmail.com (Kuniko Hayakawa) Date: Wed, 13 Jun 2007 16:55:51 +0000 Subject: =?utf-8?Q?RE:_[SCore-users-jp]_PM/Ethernet_=E9=80=9A=E4=BF=A1=E3=82=A8=E3?= =?utf-8?Q?=83=A9=E3=83=BC?= Message-ID: 亀山様、住元様 アドバイスありがとうございます、早川です。 住元様のメールに有りました、dbファイルについてはガイドに従い4台から5台に変えてあり、 scoreboardとmsgb serversの再始動を何回か行って見ましたがうまくいきませんでした。 pm-ethernet.confは5台に一応なっていました。 亀山様のメールに有りました問題点ですが、 > まず, 問題点の整理から... > 追加はどのように行ったのでしょうか? > 1. 4 台の環境をすててあらためて 5 台を install > 2. 新しいホストのみに install して config file のみを修正 > 2のケースを行いました。 新しいホストのみにFedora3とSCore5。8。3をinstallし、dbファイルやhostsファイル等の設定ファイルを変えました。 > 両者について, 古い 4 台のみで実行した場合. 問題無くうごくでしょうか? > たとえば, 古い host が comp0, comp1, comp2, comp3 で新規に comp4 > を追加し, pcc というグループを作って > > % scout -g pcc > % scstest -network ethernet > > に失敗しているとき, > > % scout -g pcc~comp4 > % scstest -network -ethernet > > は成功するかどうかということです. > (これで成功した場合, 5 台目だけを疑えば良いことになります.) > > Kameyama Toyohisa dbファイルのグループを元に戻し(つまり古い4台のみ)、チェックしてみましたが、 これでもエラーが出るようになってしまいました。 エラーは以下のようです。 ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー -config:file=/opt/score5.8.3/etc/pm-ethernet.conf type=ethernet SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16) 0 -> 2: 4608(1200) -> 4609(1201): 0(0) Ethernet PM context #0 information (unit 0) channel 0 descripter information rx_p=00001764, rx_c=00001756, rx_bp=00062100, rx_bc=00061d80 tx_p=0000053d, tx_c=00000441, tx_bp=0002c280, tx_bc=00024480 channel 0 statistics information st_txmit=754832d1, st_rexmit=04094ef2, st_xmit_ctl=30000175 st_xmit_ack=98477548 st_xmit_lost=754838f2, st_xmit_stop=040954ef st_xmit_err=000001ea, st_xmit_received=ff01030a, st_rcv_valid=0000001d st_rcv_ackonly=0000139d, st_rcv_igonore=0000120d, st_rcv_lose=0000001d st_rcv_ov=0000021d,st_rcv_ov=000003ee st_rcv_stop=000003c7, st_rcv_go=000001eb {2} 0 send=433 recv = 4608 {2} 1 send=481 recv = 648 {2} 2 send=0 recv = 0 {2} 3 send=427 recv = 718 {2} 0 send=433 recv = 4620 {2} 1 send=481 recv = 648 {2} 2 send=0 recv = 0 {2} 3 send=427 recv = 721 teofarm2( 2) burst: pmGetSendBuffer: Connection timed out(110) {0} 0 send=0 recv = 0 {0} 1 send=4911 recv = 808 {0} 2 send=4777 recv = 341 {0} 3 send=4776 recv = 874 {3} 0 send=874 recv = 4776 {1} 0 send=808 recv = 4911 {1} 1 send=0 recv = 0 {1} 2 send=829 recv = 481 {1} 3 send=787 recv = 911 teofarm1( 1) burst: pmGetSendBuffer: Connection timed out(110) teoworld( 0) burst: pmGetSendBuffer: Connection timed out(110) {3} 1 send=911 recv = 787 {3} 2 send=866 recv = 427 {3} 3 send=0 recv = 0 teofarm4( 3) burst: pmGetSendBuffer: Connection timed out(110) ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー これはサーバーが5台でも同じでした。以前はガイドに書いてあるような CSTEST: BURST on ethernet 50 K messages. 100 K messages. 150 K messages. が出たのですが、今は4台でもダメです。 以前計算できていた自分のプログラムも試したのですがこれも動きません。 何が問題を起こしているのでしょうか? よろしくお願いいたします。 _________________________________________________________________ Play free games, earn tickets, get cool prizes! Join Live Search Club.? http://club.live.com/home.aspx?icid=CLUB_wlmailtextlink From kameyama @ pccluster.org Thu Jun 14 10:18:52 2007 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Thu, 14 Jun 2007 10:18:52 +0900 Subject: [SCore-users-jp] PM/Ethernet =?ISO-2022-JP?B?GyRCREw/LiUoGyhC?= =?ISO-2022-JP?B?GyRCJWkhPBsoQg==?= In-Reply-To: References: Message-ID: <4670977C.30808@pccluster.org> 亀山です. Kuniko Hayakawa さんは書きました: > 住元様のメールに有りました、dbファイルについてはガイドに従い4台から5台 に変えてあり、 > scoreboardとmsgb serversの再始動を何回か行って見ましたがうまくいきませ んでした。 > pm-ethernet.confは5台に一応なっていました。 > > 亀山様のメールに有りました問題点ですが、 >> まず, 問題点の整理から... >> 追加はどのように行ったのでしょうか? >> 1. 4 台の環境をすててあらためて 5 台を install >> 2. 新しいホストのみに install して config file のみを修正 >> > 2のケースを行いました。 > 新しいホストのみにFedora3とSCore5。8。3をinstallし、dbファイルやhosts ファイル等の設定ファイルを変えました。 > >> 両者について, 古い 4 台のみで実行した場合. 問題無くうごくでしょうか? >> たとえば, 古い host が comp0, comp1, comp2, comp3 で新規に comp4 >> を追加し, pcc というグループを作って >> >> % scout -g pcc >> % scstest -network ethernet >> >> に失敗しているとき, >> >> % scout -g pcc~comp4 >> % scstest -network -ethernet >> >> は成功するかどうかということです. >> (これで成功した場合, 5 台目だけを疑えば良いことになります.) > dbファイルのグループを元に戻し(つまり古い4台のみ)、チェックしてみまし たが、 > これでもエラーが出るようになってしまいました。 db ファイルを変更する必要はなかったのですが... scorehost のマニュアル http://www.pccluster.org/score/dist/score-5.8.3/html/ja/man/man1/scorehosts.html に書かれている + ~ などの記述が SCore プログラムでグループを指定できる すべての場所で使用可能です. db にそのホストがかかれていれば, + でそのホストを追加したり, ~ でそのホストを削除したりできます. > エラーは以下のようです。 > ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー > -config:file=/opt/score5.8.3/etc/pm-ethernet.conf > type=ethernet > SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16) > 0 -> 2: 4608(1200) -> 4609(1201): 0(0) host0 から host2 への通信でシーケンス番号 4608 を期待していたところ 4609 が届いてエラーを起こしています. > {2} 0 send=433 recv = 4608 > {2} 1 send=481 recv = 648 > {2} 2 send=0 recv = 0 > {2} 3 send=427 recv = 718 > {2} 0 send=433 recv = 4620 > {2} 1 send=481 recv = 648 > {2} 2 send=0 recv = 0 > {2} 3 send=427 recv = 721 > teofarm2( 2) burst: pmGetSendBuffer: Connection timed out(110) host2 が通信したシーケンス番号です. > {0} 0 send=0 recv = 0 > {0} 1 send=4911 recv = 808 > {0} 2 send=4777 recv = 341 > {0} 3 send=4776 recv = 874 host0 のものです. host2 との数があっていません... send は host2 が止まってからも送信したものとしても, host2 が送信した 433 のうち, 341 しか受信していません. > {3} 0 send=874 recv = 4776 > {1} 0 send=808 recv = 4911 > {1} 1 send=0 recv = 0 > {1} 2 send=829 recv = 481 > {1} 3 send=787 recv = 911 > teofarm1( 1) burst: pmGetSendBuffer: Connection timed out(110) > teoworld( 0) burst: pmGetSendBuffer: Connection timed out(110) > {3} 1 send=911 recv = 787 > {3} 2 send=866 recv = 427 > {3} 3 send=0 recv = 0 host1, host3 は少なくても host2 で送ったものは受信しているようですが... host0, host1, host3 の相互間では一致していますね. 原因は host2 (もしくは host0 と host2 の間の通信?) にありそうな気がします... (host0 だけ送信がかなり多いのも若干気になるところですが... host0 だけ NIC か CPU が良い?) とりあえず, 以下の順序でテストでしょうか? 1. host0, host1, host3 の 3 台で scstest を行って, 3 台で問題のないこと を確認 うまくいかない場合は host1, host2, host3 で行ってみる. 2. 上記に, 今回参加していない host4 を追加した 4 台で大丈夫か確認 3. host0 と host2 などうまくいかない host 間で point-to-point test. Kameyama Toyohisa From fruttac @ hotmail.com Thu Jun 14 18:49:25 2007 From: fruttac @ hotmail.com (Kuniko Hayakawa) Date: Thu, 14 Jun 2007 09:49:25 +0000 Subject: =?iso-2022-jp?B?UkU6IFtTQ29yZS11c2Vycy1qcF0gUE0vRXRoZXJuZXQgGyRCREw/LiUo?= =?iso-2022-jp?B?JWkhPBsoQg==?= Message-ID: 亀山様 お手数お掛け致します、早川です。 > > db ファイルを変更する必要はなかったのですが... > scorehost のマニュアル > > http://www.pccluster.org/score/dist/score-5.8.3/html/ja/man/man1/scorehosts.html > に書かれている + ~ などの記述が SCore プログラムでグループを指定できる > すべての場所で使用可能です. > db にそのホストがかかれていれば, + でそのホストを追加したり, > ~ でそのホストを削除したりできます. > この操作は知りませんでした。ありがとうございました。 > host1, host3 は少なくても host2 で送ったものは受信しているようですが... > host0, host1, host3 の相互間では一致していますね. > > 原因は host2 (もしくは host0 と host2 の間の通信?) にありそうな気がします... > (host0 だけ送信がかなり多いのも若干気になるところですが... > host0 だけ NIC か CPU が良い?) > 全てのコンピューターで同じ構成を使っているのですが… またhost0はサーバーと計算ホストを兼ねています。 ネットワークはギガビットを使っており、Cisco SystemsのCatalyst 3750 Switchを通して繋げております。 > とりあえず, 以下の順序でテストでしょうか? > 1. host0, host1, host3 の 3 台で scstest を行って, 3 台で問題のないこと > を確認 > うまくいかない場合は host1, host2, host3 で行ってみる. > 2. 上記に, 今回参加していない host4 を追加した 4 台で大丈夫か確認 > 3. host0 と host2 などうまくいかない host 間で point-to-point test. > これらのテストを行って見ました。 1について、host0, host1, host3 の 3 台では次のようなエラーが出ました。 (長かったので途中はカットしました。) ーーーーーーーーーーーーーーーーーーーーーーーー -config:file=/opt/score5.8.3/etc/pm-ethernet.conf type=ethernet SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16) 0 -> 2: 119991(1d4b7) -> 119767(1d3d7): 0(0) Ethernet PM context #0 information (unit 0) channel 0 descripter information rx_p=000203ab, rx_c=000203a6, rx_bp=008732c0, rx_bc=00873180 tx_p=000047e3, tx_c=000046e7, tx_bp=00269d80, tx_bc=00261f80 channel 0 statistics information st_txmit=75483001, st_rexmit=04099a46, st_xmit_ctl=00002495 st_xmit_ack=0000000a st_xmit_lost=0000e6a4, st_xmit_stop=ff01e6ff st_xmit_err=00002463, st_xmit_received=00001373, st_rcv_valid=0000015b st_rcv_ackonly=0001e893, st_rcv_igonore=0001d4bd, st_rcv_lose=00000131 st_rcv_ov=000006ed,st_rcv_ov=00003ca2 st_rcv_stop=00002ef0, st_rcv_go=00000e27 {2} 0 send=9171 recv = 119991 {2} 1 send=9232 recv = 12015 {2} 2 send=0 recv = 0 0 -> 2: 119768(1d3d8) -> 119767(1d3d7): 0(0) ........(中略)........ Ethernet PM context #0 information (unit 0) channel 0 descripter information rx_p=000203ab, rx_c=000203a6, rx_bp=008732c0, rx_bc=00873180 tx_p=000047e3, tx_c=000046e7, tx_bp=00269d80, tx_bc=00261f80 channel 0 statistics information st_txmit=75483001, st_rexmit=04099a46, st_xmit_ctl=00002495 st_xmit_ack=0000000a st_xmit_lost=0000e751, st_xmit_stop=ff01e6ff st_xmit_err=00002463, st_xmit_received=00001420, st_rcv_valid=0000015b st_rcv_ackonly=0001e893, st_rcv_igonore=0001d4bd, st_rcv_lose=000001de st_rcv_ov=000006ed,st_rcv_ov=00003ca2 st_rcv_stop=00002ef0, st_rcv_go=00000e27 {2} 0 send=9171 recv = 119768 {2} 1 send=9232 recv = 12015 {2} 2 send=0 recv = 0 {2} 0 send=9171 recv = 119768 {2} 1 send=9232 recv = 12015 {2} 2 send=0 recv = 0 teofarm4( 2) burst: pmGetSendBuffer: Connection timed out(110) {0} 0 send=0 recv = 0 {0} 1 send=120590 recv = 12475 {0} 2 send=120256 recv = 9053 {1} 0 send=12475 recv = 120590 {1} 1 send=0 recv = 0 {1} 2 send=12268 recv = 9232 teofarm1( 1) burst: pmGetSendBuffer: Connection timed out(110) teoworld( 0) burst: pmGetSendBuffer: Connection timed out(110) ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー 次にhost1, host2, host3で行ったのですが、 次のような結果が出ました。 ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー -config:file=/opt/score5.8.3/etc/pm-ethernet.conf type=ethernet SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16) 50 K packets. (2.931e+00 kpps) 100 K packets. (2.511e+00 kpps) 150 K packets. (2.636e+00 kpps) 200 K packets. (3.163e+00 kpps) 250 K packets. (3.234e+00 kpps) 2 -> 1: 157917(268dd) -> 157769(26849): 2(2) Ethernet PM context #0 information (unit 0) channel 0 descripter information rx_p=0004be75, rx_c=0004be72, rx_bp=013e8540, rx_bc=013e8480 tx_p=00042d5f, tx_c=00042c68, tx_bp=023f0b80, tx_bc=023e9000 channel 0 statistics information st_txmit=75483001, st_rexmit=04094c21, st_xmit_ctl=00021bb2 st_xmit_ack=000268e0 st_xmit_lost=0000f944, st_xmit_stop=ff01f917 st_xmit_err=00000000, st_xmit_received=0000009e, st_rcv_valid=00021c04 st_rcv_ackonly=00025962, st_rcv_igonore=00034c1f, st_rcv_lose=0001cea8 st_rcv_ov=000001f6,st_rcv_ov=000001d8 st_rcv_stop=00000002, st_rcv_go=0000008c {1} 0 send=137039 recv = 152981 {1} 1 send=0 recv = 0 {1} 2 send=136720 recv = 157917 {2} 0 send=157928 recv = 153276 {0} 0 send=0 recv = 0 {0} 1 send=153126 recv = 136991 {0} 2 send=153276 recv = 157928 teofarm1( 0) burst: pmGetSendBuffer: Connection timed out(110) {2} 1 send=158040 recv = 136592 {2} 2 send=0 recv = 0 teofarm4( 2) burst: pmGetSendBuffer: Connection timed out(110) ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー そこで3のpoint-to-point testをしました。 (このpoint-to-point testには追加したhostに対しては今回はしませんでした。) 結果は ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー [root @ teoworld ~]# rpmtest teoworld ethernet -dest 2 -ping 8 0.000941856 [root @ teoworld ~]# rpmtest teofarm4 ethernet -dest 2 -ping 8 0.000955829 [root @ teoworld ~]# rpmtest teofarm1 ethernet -dest 2 -ping 8 0.000957757 [root @ teoworld ~]# rpmtest teoworld ethernet -dest 1 -ping 8 0.000931688 [root @ teoworld ~]# rpmtest teofarm4 ethernet -dest 1 -ping 8 0.000943443 [root @ teoworld ~]# rpmtest teoworld ethernet -dest 3 -ping 8 0.000942956 ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー かなりスローでしたが通信しているようでした。 これ以外に古いpc-cluster(RedHat&SCore5.8)を持っているのですが、通信も速く このような問題は持ったことがないので何がおこっているのか全く分かりません。 度々お手数ですが、アドバイスの程よろしくお願いいたします。 _________________________________________________________________ Express yourself instantly with MSN Messenger! Download today it's FREE! http://messenger.msn.click-url.com/go/onm00200471ave/direct/01/ From hori @ allinea.com Thu Jun 14 19:15:21 2007 From: hori @ allinea.com (Atsushi HORI) Date: Thu, 14 Jun 2007 19:15:21 +0900 Subject: =?ISO-2022-JP?B?UmU6IFtTQ29yZS11c2Vycy1qcF0gUE0vRXRoZXJuZXQg?= =?ISO-2022-JP?B?GyRCREw/LiUoGyhCJWkhPA==?= In-Reply-To: References: Message-ID: 堀@Allinea と申します。 On 2007/06/14, at 18:49, Kuniko Hayakawa wrote: >> とりあえず, 以下の順序でテストでしょうか? >> 1. host0, host1, host3 の 3 台で scstest を行っ >> て, 3 台で問題のないこと >> を確認 >> うまくいかない場合は host1, host2, host3 で行ってみる. >> 2. 上記に, 今回参加していない host4 を追加した >> 4 台で大丈夫か確認 >> 3. host0 と host2 などうまくいかない host 間で >> point-to-point test. >> > これらのテストを行って見ました。 > 1について、host0, host1, host3 の 3 台では次のよう > なエラーが出ました。 > (長かったので途中はカットしました。) このようなエラーが出た時、計算ホスト上の /proc/pm/ethernet/0/ info はどのようになっているでしょうか? 具体的には > scstest ... エラー > scout grep err /proc/pm/ethernet/0/info 理想としてはこれで表示されるエラーの数がゼロなのですが、これが異 常に多いと問題となることが考えられます。 From fruttac @ hotmail.com Thu Jun 14 22:01:00 2007 From: fruttac @ hotmail.com (Kuniko Hayakawa) Date: Thu, 14 Jun 2007 13:01:00 +0000 Subject: =?iso-2022-jp?B?UkU6IFtTQ29yZS11c2Vycy1qcF0gUE0vRXRoZXJuZXQgGyRCREw/LiUo?= =?iso-2022-jp?B?GyhCJWkhPA==?= Message-ID: 堀様、 早川です。メールに有りましたinfoは次の様でした。 (新しいサーバーはテストにいれてません。) > > このようなエラーが出た時、計算ホスト上の /proc/pm/ethernet/0/ > info はどのようになっているでしょうか? > > 具体的には > > > scstest ... > エラー > > > scout grep err /proc/pm/ethernet/0/info > > 理想としてはこれで表示されるエラーの数がゼロなのですが、これが異 > 常に多いと問題となることが考えられます。 > 1) comp0, comp1, comp3の場合; [teoworld]: Dev error : 2 Header err : 0 Header cksum err: 0 Data cksum err : 0 Underrun err : 0 [teofarm1]: Dev error : 0 Header err : 0 Header cksum err: 0 Data cksum err : 0 Underrun err : 0 [teofarm4]: Dev error : 1 Header err : 0 Header cksum err: 0 Data cksum err : 0 Underrun err : 0 2) comp0, comp1, comp2の場合; [teoworld]: Dev error : 10 Header err : 0 Header cksum err: 0 Data cksum err : 0 Underrun err : 0 [teofarm1-2]: Dev error : 0 Header err : 0 Header cksum err: 0 Data cksum err : 0 Underrun err : 0 3) comp0, comp2, comp3の場合; [teoworld]: Dev error : 0 Header err : 0 Header cksum err: 0 Data cksum err : 0 Underrun err : 0 [teofarm2]: Dev error : 3 Header err : 0 Header cksum err: 0 Data cksum err : 0 Underrun err : 0 [teofarm4]: Dev error : 2 Header err : 0 Header cksum err: 0 Data cksum err : 0 Underrun err : 0 4) comp1, comp2, comp3の場合 (今回は"50 K packets. (2.931e+00 kpps)"と表示のあとエラー:packet の数は毎回違います); [teofarm1]: Dev error : 2 Header err : 0 Header cksum err: 0 Data cksum err : 0 Underrun err : 0 [teofarm2,teofarm4]: Dev error : 3 Header err : 0 Header cksum err: 0 Data cksum err : 0 Underrun err : 0 5) comp0, comp1, comp2, comp3 (全サーバー)の場合; [teoworld]: Dev error : 3 Header err : 0 Header cksum err: 0 Data cksum err : 0 Underrun err : 0 [teofarm1-2,teofarm4]: Dev error : 0 Header err : 0 Header cksum err: 0 Data cksum err : 0 Underrun err : 0 このようなチェックは初めてなので、これらの結果をどのように活用すれば良いのか分かりません。 よろしくお願いします。 _________________________________________________________________ Express yourself instantly with MSN Messenger! Download today it's FREE! http://messenger.msn.click-url.com/go/onm00200471ave/direct/01/ From kameyama @ pccluster.org Fri Jun 15 09:36:57 2007 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Fri, 15 Jun 2007 09:36:57 +0900 Subject: [SCore-users-jp] PM/Ethernet =?ISO-2022-JP?B?GyRCREw/LiUoGyhC?= =?ISO-2022-JP?B?JWkhPA==?= In-Reply-To: References: Message-ID: <4671DF29.5030004@pccluster.org> 亀山です. /proc/pm/ethernet/0/info なら全体を送ってもらったほうがよかったかも... Kuniko Hayakawa さんは書きました: >> > scout grep err /proc/pm/ethernet/0/info >> >> 理想としてはこれで表示されるエラーの数がゼロなのですが、これが異 >> 常に多いと問題となることが考えられます。 >> > 1) comp0, comp1, comp3の場合; > [teoworld]: > Dev error : 2 > Header err : 0 > Header cksum err: 0 > Data cksum err : 0 > Underrun err : 0 dev error がこれぐらいならそんなに問題はないのかもしれませんが... pm-ethernet.conf のパラメータに intreap というパラメータが無いか 1 でしたら intreap 0 にしてみてください. 少しは改善されるかも知れません. Kameyama Toyohisa From fruttac @ hotmail.com Wed Jun 20 18:34:58 2007 From: fruttac @ hotmail.com (Kuniko Hayakawa) Date: Wed, 20 Jun 2007 09:34:58 +0000 Subject: =?iso-2022-jp?B?UkU6IFtTQ29yZS11c2Vycy1qcF0gUE0vRXRoZXJuZXQgGyRCREw/LiUo?= =?iso-2022-jp?B?GyhCJWkhPA==?= Message-ID: 亀山様 返事が遅くなりました、早川です。 > pm-ethernet.conf のパラメータに > intreap > というパラメータが無いか 1 でしたら > intreap 0 > にしてみてください. > 少しは改善されるかも知れません. > このパラメーターがなかったので、hostのpm-ethernet.confファイルにこれを加え、 'scstest -network ethernet'をしたところ 古い4台の場合、 ーーーーーーーーーーーーーーーーーーーー [root @ teoworld ~]# scstest -network ethernet -config:file=/opt/score5.8.3/etc/pm-ethernet.conf type=ethernet SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16) 50 K packets. (2.462e+01 kpps) 100 K packets. (2.444e+01 kpps) 150 K packets. (2.433e+01 kpps) 200 K packets. (2.446e+01 kpps) ーーーーーーーーーーーーーーーーーーーーー という結果で成功しました。 次に新しい1台を足して5台でscstestを行ったのですが、 ーーーーーーーーーーーーーーーーーーーーー [root @ teoworld ~]# scstest -network ethernet -config:file=/opt/score5.8.3/etc/pm-ethernet.conf type=ethernet SCSTEST: BURST on ethernet(chan=0,ctx=0,len=16) 0 -> 3: 29388(72cc) -> 29246(723e): 0(0) Ethernet PM context #0 information (unit 0) channel 0 descripter information rx_p=0000bfa6, rx_c=0000bf88, rx_bp=00324180, rx_bc=00323a40 tx_p=000054cc, tx_c=000053d3, tx_bp=002d7e00, tx_bc=002d0180 channel 0 statistics information st_txmit=53f57eae, st_rexmit=040966a7, st_xmit_ctl=30001501 st_xmit_ack=64a88dd9 st_xmit_lost=75488365, st_xmit_stop=0409b8ca st_xmit_err=30001587, st_xmit_received=04096f90, st_rcv_valid=00001633 st_rcv_ackonly=0000a1cd, st_rcv_igonore=00007ba1, st_rcv_lose=ff010b69 st_rcv_ov=0000021b,st_rcv_ov=00002af6 st_rcv_stop=0000191a, st_rcv_go=000006ec {3} 0 send=5426 recv = 29388 {3} 1 send=5491 recv = 6409 {3} 2 send=5358 recv = 6285 {3} 3 send=0 recv = 0 {3} 4 send=5433 recv = 6950 {2} 0 send=6267 recv = 29531 {2} 1 send=6324 recv = 6400 {2} 2 send=0 recv = 0 {2} 3 send=6356 recv = 5358 {2} 4 send=6160 recv = 7125 {4} 0 send=7054 recv = 29399 teofarm2( 2) burst: pmGetSendBuffer: Connection timed out(110) {1} 0 send=6573 recv = 29378 {1} 1 send=0 recv = 0 {1} 2 send=6400 recv = 6324 {1} 3 send=6481 recv = 5490 {1} 4 send=6475 recv = 7038 teofarm1( 1) burst: pmGetSendBuffer: Connection timed out(110) {0} 0 send=0 recv = 0 {0} 1 send=29378 recv = 6573 {0} 2 send=29531 recv = 6267 {0} 3 send=29463 recv = 5358 {0} 4 send=29399 recv = 7054 teoworld( 0) burst: pmGetSendBuffer: Connection timed out(110) {4} 1 send=7038 recv = 6475 {4} 2 send=7125 recv = 6160 {4} 3 send=7006 recv = 5424 {4} 4 send=0 recv = 0 teofarm4( 4) burst: pmGetSendBuffer: Connection timed out(110) ーーーーーーーーーーーーーーーーーーーーーーーーーーー となり、以前のようなエラーを得ました。 そこでpoint-to-pointテストをしました。結果は、 ーーーーーーーーーーーーーーーーーーーーーーーーーーー [root @ teoworld ~]# rpmtest teofarm2 ethernet -dest 1 -ping 8 0.000160424 [root @ teoworld ~]# rpmtest teofarm4 ethernet -dest 1 -ping 8 0.00014708 [root @ teoworld ~]# rpmtest teoworld ethernet -dest 1 -ping 8 0.000147577 [root @ teoworld ~]# rpmtest teofarm3 ethernet -dest 1 -ping 8 0.000727718 ーーーーーーーーーーーーーーーーーーーーーーーーーーー 一番下のセーバー(新しいサーバー)は他と違ってかなり遅かったです。 問題はこの新しいサーバーだと思うのですが、設定は他のサーバーと一緒なので、 何を直せば良いのか分かりません。 何か良い方法がありますでしょうか? _________________________________________________________________ Express yourself instantly with MSN Messenger! Download today it's FREE! http://messenger.msn.click-url.com/go/onm00200471ave/direct/01/ From kameyama @ pccluster.org Thu Jun 21 09:27:55 2007 From: kameyama @ pccluster.org (Kameyama Toyohisa) Date: Thu, 21 Jun 2007 09:27:55 +0900 Subject: [SCore-users-jp] PM/Ethernet =?ISO-2022-JP?B?GyRCREw/LiUoGyhC?= =?ISO-2022-JP?B?JWkhPA==?= In-Reply-To: References: Message-ID: <4679C60B.7090108@pccluster.org> 亀山です. Kuniko Hayakawa さんは書きました: > そこでpoint-to-pointテストをしました。結果は、 > ーーーーーーーーーーーーーーーーーーーーーーーーーーー > [root @ teoworld ~]# rpmtest teofarm2 ethernet -dest 1 -ping > 8 0.000160424 > [root @ teoworld ~]# rpmtest teofarm4 ethernet -dest 1 -ping > 8 0.00014708 > [root @ teoworld ~]# rpmtest teoworld ethernet -dest 1 -ping > 8 0.000147577 > [root @ teoworld ~]# rpmtest teofarm3 ethernet -dest 1 -ping > 8 0.000727718 > ーーーーーーーーーーーーーーーーーーーーーーーーーーー > 一番下のセーバー(新しいサーバー)は他と違ってかなり遅かったです。 > > 問題はこの新しいサーバーだと思うのですが、設定は他のサーバーと一緒なので、 > 何を直せば良いのか分かりません。 新しいサーバと今までのサーバで NIC の種類は同じでしょうか? NIC の種類によっては NIC の driver の version やパラメータをいじると改善 されることがありますので... Kameyama Toyohisa From fruttac @ hotmail.com Thu Jun 21 18:38:44 2007 From: fruttac @ hotmail.com (Kuniko Hayakawa) Date: Thu, 21 Jun 2007 09:38:44 +0000 Subject: =?utf-8?Q?RE:_[SCore-users-jp]_PM/Ethernet_=E9=80=9A=E4=BF=A1=E3=82=A8%i!?= =?utf-8?Q? 亀山様 > 新しいサーバと今までのサーバで NIC の種類は同じでしょうか? > NIC の種類によっては NIC の driver の version やパラメータをいじると改善 > されることがありますので... > NICを調べたところ次のようでした。 ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー root @ teoworld ~]# scout lspci [teoworld,teofarm1-4]: 00:00.0 Host bridge: Intel Corp. E7501 Memory Controller Hub (rev 01) 00:02.0 PCI bridge: Intel Corp. E7500/E7501 Hub Interface B PCI-to-PCI Bridge (rev 01) 00:1d.0 USB Controller: Intel Corp. 82801CA/CAM USB (Hub #1) (rev 02) 00:1d.1 USB Controller: Intel Corp. 82801CA/CAM USB (Hub #2) (rev 02) 00:1d.2 USB Controller: Intel Corp. 82801CA/CAM USB (Hub #3) (rev 02) 00:1e.0 PCI bridge: Intel Corp. 82801 PCI Bridge (rev 42) 00:1f.0 ISA bridge: Intel Corp. 82801CA LPC Interface Controller (rev 02) 00:1f.1 IDE interface: Intel Corp. 82801CA Ultra ATA Storage Controller (rev 02) 00:1f.3 SMBus: Intel Corp. 82801CA/CAM SMBus Controller (rev 02) 01:04.0 VGA compatible controller: ATI Technologies Inc Rage XL (rev 27) 02:1c.0 PIC: Intel Corp. 82870P2 P64H2 I/OxAPIC (rev 04) 02:1d.0 PCI bridge: Intel Corp. 82870P2 P64H2 Hub PCI Bridge (rev 04) 02:1e.0 PIC: Intel Corp. 82870P2 P64H2 I/OxAPIC (rev 04) 02:1f.0 PCI bridge: Intel Corp. 82870P2 P64H2 Hub PCI Bridge (rev 04) 03:01.0 Ethernet controller: Intel Corp. 82541EI Gigabit Ethernet Controller (Copper) 03:02.0 Ethernet controller: Intel Corp. 82541EI Gigabit Ethernet Controller (Copper) ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー どれもhardwareは 'Intel Corp. 82541El Gigabit Ethernet Controller' の同じ種類のものを使っています。 (購入時に5台とも同じ構成のものをオーダーしました。) 早川久仁子 _________________________________________________________________ Make every IM count. Download Windows Live Messenger and join the i’m Initiative now. It’s free.? http://im.live.com/messenger/im/home/?source=TAGWL_June07