現実逃避に、あるコードを BLAS を使うように書き換えて遊んでたら 80% 以上も高速化した。
まぁ、元のコードがあまりに教科書的な書き方でもともと遅かったとかいうのもあるし、たぶん余計メモリ喰うようになったので系の規模によってはあんまり速くなってないかもしれんのだが。
と云っても、ベクトルの copy と axpy しか使ってない。
もうちょっと遊べる API があってもいいのに…。要素積ババンとか。
gcc + ATLAS の組み合わせで、こういうパフォーマンスだったわけだが、 Intel の compiler + math kernel library でも遊べるだろうか…。
って、その前に、制限ユーザだと Visual Studio にオプションが渡らん件をどうにかせねば…。
[referer: [an error occurred while processing this directive]]