やっと暇になったので、1年前にいじっていた CUDA のコードにまた手をつける。
去年は、バグっててうまく動かないうちに時間切れになってたんだが、久しぶりに見たらすっかり忘却していてちっとも理解できなかったわりに、わりとあっさりと動くように直せてしまった。
しかし遅い。馬鹿馬鹿しく遅い。CPU でやってるよりも数倍遅い。
ホスト->デバイスの overhead とかデバイスでやる処理が少なすぎとか、問題自体の問題(コアレッシングできないとかグローバルに頼るしかないとか)とか nvcc だとホストコードが遅いんじゃねとかいろいろ思いつく。要するに問題を選ぶんだよな。
あと、弄りかけのコード、なになに残ってたかな……。