開発で使って遊んでいた EC2 の GPU インスタンスが、急に使えなくなった。
なにか変な操作した挙句、うっかり CUDA-7.0 の上に CUDA-7.5 入れてしまって、どうもドライバを変に上書きしてしまった模様。 なにせ nvidia-smi が kill されるとか、2回目はプロセスが刺さるとか、自分のコードでもデバイスチェックしに行って刺さるとかそのまま load av. が果てしなく上昇するとか全然使えない。
問題は、ここからどうやっても元に戻せなくなったこと。最後は新しいインスタンス作ってクリーンなところからインストールし直したけどどうしてもダメ。
というか、 CUDA のインストールを local repo 版でやったんだが、どうもそれが駄目で、
に従って、 .run を手でインストールしたらこれはちゃんと動くようになった。納得いかん
最初に動いてた環境も local repo 版からのインストールだったはずなんだがなぁ。
半月ぐらい空費したが、なんとか開発続行できるようになり、判りにくいバグをなんとか半日かけて解析して、8月中に終わらせたかった開発はやっと1段落である。