[SCore-users-jp] kernel 不具合?

Kameyama Toyohisa kameyama @ pccluster.org
2006年 9月 11日 (月) 21:10:21 JST


亀山です.

vqm_mp wrote:
> お世話になります。明治大学の鈴木です。
>
> http://download.nvidia.com/XFree86/nforce/1.0-0306/KnownProblems.html
>> に以下の記述がありますが, 該当しないでしょうか?
>>
>>       Network and other devices randomly stop
>> working when ACPI is enabled
>      :
>      :
>
> 該当しません。
>
>> scstest まで動いていたのでしたら, context switch
>> 関連の
>> bug とかも考えられないことは無いですけど...
>
> scstestも正常に動いております。
>
> さて、本日、i386の Fefora Core 3 で再度挑戦してみました
>> すると、下記いずれの場合も同じscout環境のもとで、同じMPI
> プログラムをコンパイルし、scrun ./a.outコマンドを行なっ
>> いるのですが、
>
>  1)正常に動く。
>
>  2)以下のメッセージで止まる。
>    [root @ server test]# scrun -nodes=4 ./a.out
>    SCore-D 5.8.3 connected.
>    <2> SCORE: Program signaled (SIGSEGV).
>
>  3)何も応答なし。
>
>  4)いずれかのノードがフリーズする。
>
> の4パターンになりました。X86_64のときは4)だけでしたが、
> i386にすると1)のように成功する場合もあります。
>
> ・同じことをやっているのに、なぜ、動作が変わるので
>  しょうか?

複数のホストでプログラムが動いているので,
タイミングによって動作が変わることはよくあります.

> ・2)のメッセージは、何を現わしていますか?

3 ばんめのプロセス (<2> の部分, この数字は 0 origin なので...)
の SCore が SIGSEGV をおこしたことを現しています.
   scrun -nodes=4,scoredtrace=100 ./a.out
などとやるとどのあたりで落ちているかわかるかもしれません.

Kameyama Toyohisa



SCore-users-jp メーリングリストの案内