とりあえず動くとこまで持ってけたので、ベンチマークをとってみたら、 cuda 使った方が1割ほど遅くなったwwwwww
これはあれかなー。各 thread が連続するアドレスにアクセスするようなコードになっていないんで駄目とかその辺かなー。
しかし、そこを改善しようとするとデータ構造全部いじんなきゃなんない。こっちからして見りゃ cuda なんて、サポート機能の一つにしかならんのに、 cuda の側からだとコードを全部 cuda 用に書き換えてやんなきゃちゃんと動かんつーのは苦痛だなぁ。なんで一蓮托生でつき合わなきゃなんないんだ。