私はCUDAを評価しており、現在Thrustライブラリを使用して数値をソートしています。
スラスト::ソート用の独自の比較子を作成したいのですが、劇的に遅くなります! Functional.hからコードをコピーするだけで、独自の少ない実装を作成しました。ただし、他の方法でコンパイルされているようで、動作が非常に遅いです。
- デフォルトの比較子: Thrust::less() - 94ミリ秒
- 私自身の比較子: less() - 906ミリ秒
Visual Studio 2010 を使用しています。オプション 1 と同じパフォーマンスを得るにはどうすればよいですか?
完全なコード:
#include <stdio.h>
#include <cuda.h>
#include <thrust/host_vector.h>
#include <thrust/device_vector.h>
#include <thrust/generate.h>
#include <thrust/sort.h>
int myRand()
{
static int counter = 0;
if ( counter++ % 10000 == 0 )
srand(time(NULL)+counter);
return (rand()<<16) | rand();
}
template<typename T>
struct less : public thrust::binary_function<T,T,bool>
{
__host__ __device__ bool operator()(const T &lhs, const T &rhs) const {
return lhs < rhs;
}
};
int main()
{
thrust::host_vector<int> h_vec(10 * 1000 * 1000);
thrust::generate(h_vec.begin(), h_vec.end(), myRand);
thrust::device_vector<int> d_vec = h_vec;
int clc = clock();
thrust::sort(d_vec.begin(), d_vec.end(), less<int>());
printf("%dms\n", (clock()-clc) * 1000 / CLOCKS_PER_SEC);
return 0;
}