どうやら玩具にしてる Tesla を壊してしまった模様……。
計算させようとすると、
> ./NVIDIA_GPU_Computing_SDK/C/bin/linux/release/reduction [reduction] starting... Using Device 0: Tesla C2050 Reducing array of type int 16777216 elements 256 threads (max) 64 blocks reduction.cpp(473) : cudaSafeCallNoSync() Runtime API error 39 : uncorrectable ECC error encountered.
ってなことに…。
可能性の一つとして、kernel moduleがなにかと干渉しているというのもありえるんだけど、とりあえず3.2から.2.6.38, 2.6.35と落してみたけど改善しない。
致命的に死んでいるわけではなくて、deviceQueryには答えるし、ecc-config=0にしてやるとちゃんと動くことは確認。
しかし…、ECC off の Tesla で実計算は、さすがに止めた方がいいかなぁ…。
とりあえず、開発遊びにだけなら、まだ使えるということか…。
壊れるに至った流れは、 ubuntuのversion上げた→kernelが上がった→driverが消えたのでcuda driver再インストール→Nouveau Driverが干渉するので次回から読み込ませないね→reboot→何故か最後にGPUファンが全力で回る→以降、deviceはちゃんと見えるんだが、mallocは全部失敗。
C2075買えってことかな?。keplerいつ来るのかな???