[SCore-users-jp] kernel 不具合?
Kameyama Toyohisa
kameyama @ pccluster.org
2006年 9月 11日 (月) 21:10:21 JST
亀山です.
vqm_mp wrote:
> お世話になります。明治大学の鈴木です。
>
> http://download.nvidia.com/XFree86/nforce/1.0-0306/KnownProblems.html
>> に以下の記述がありますが, 該当しないでしょうか?
>>
>> Network and other devices randomly stop
>> working when ACPI is enabled
> :
> :
>
> 該当しません。
>
>> scstest まで動いていたのでしたら, context switch
>> 関連の
>> bug とかも考えられないことは無いですけど...
>
> scstestも正常に動いております。
>
> さて、本日、i386の Fefora Core 3 で再度挑戦してみました
> 。
> すると、下記いずれの場合も同じscout環境のもとで、同じMPI
> プログラムをコンパイルし、scrun ./a.outコマンドを行なっ
> て
> いるのですが、
>
> 1)正常に動く。
>
> 2)以下のメッセージで止まる。
> [root @ server test]# scrun -nodes=4 ./a.out
> SCore-D 5.8.3 connected.
> <2> SCORE: Program signaled (SIGSEGV).
>
> 3)何も応答なし。
>
> 4)いずれかのノードがフリーズする。
>
> の4パターンになりました。X86_64のときは4)だけでしたが、
> i386にすると1)のように成功する場合もあります。
>
> ・同じことをやっているのに、なぜ、動作が変わるので
> しょうか?
複数のホストでプログラムが動いているので,
タイミングによって動作が変わることはよくあります.
> ・2)のメッセージは、何を現わしていますか?
3 ばんめのプロセス (<2> の部分, この数字は 0 origin なので...)
の SCore が SIGSEGV をおこしたことを現しています.
scrun -nodes=4,scoredtrace=100 ./a.out
などとやるとどのあたりで落ちているかわかるかもしれません.
Kameyama Toyohisa
SCore-users-jp メーリングリストの案内