AWS EC2 GPUインスタンス

開発で使って遊んでいた EC2 の GPU インスタンスが、急に使えなくなった。

なにか変な操作した挙句、うっかり CUDA-7.0 の上に CUDA-7.5 入れてしまって、どうもドライバを変に上書きしてしまった模様。 なにせ nvidia-smi が kill されるとか、2回目はプロセスが刺さるとか、自分のコードでもデバイスチェックしに行って刺さるとかそのまま load av. が果てしなく上昇するとか全然使えない。

問題は、ここからどうやっても元に戻せなくなったこと。最後は新しいインスタンス作ってクリーンなところからインストールし直したけどどうしてもダメ。

というか、 CUDA のインストールを local repo 版でやったんだが、どうもそれが駄目で、

https://github.com/BVLC/caffe/wiki/Install-Caffe-on-EC2-from-scratch-(Ubuntu,-CUDA-7,-cuDNN)

に従って、 .run を手でインストールしたらこれはちゃんと動くようになった。納得いかん

最初に動いてた環境も local repo 版からのインストールだったはずなんだがなぁ。

半月ぐらい空費したが、なんとか開発続行できるようになり、判りにくいバグをなんとか半日かけて解析して、8月中に終わらせたかった開発はやっと1段落である。


00:13:40 - 07.10.15 - kuroyagi - その他雑記 - 3288x