opencl - Radeon で OpenCL (aparapi) の単純なリダクションが遅い

Question

OpenCL で大きな double 配列に対して単純なリダクション (この場合は合計) をコーディングしようとしています。私はオンラインチュートリアルを見て、これが本質的に私の問題を解決する方法であることを発見しました:

#pragma OPENCL EXTENSION cl_khr_fp64 : enable

typedef struct This_s{
   __global double *nums;
   int nums__javaArrayLength;
   __local double *buffer;
   __global double *res;
   int passid;
}This;
int get_pass_id(This *this){
   return this->passid;
}
__kernel void run(
   __global double *nums, 
   int nums__javaArrayLength, 
   __local double *buffer, 
   __global double *res, 
   int passid
){
   This thisStruct;
   This* this=&thisStruct;
   this->nums = nums;
   this->nums__javaArrayLength = nums__javaArrayLength;
   this->buffer = buffer;
   this->res = res;
   this->passid = passid;
   {
      int tid = get_local_id(0);
      int i = (get_group_id(0) * get_local_size(0)) + get_local_id(0);
      int gridSize = get_local_size(0) * get_num_groups(0);
      int n = this->nums__javaArrayLength;
      double cur = 0.0;
      for (; i<n; i = i + gridSize){
         cur = cur + this->nums[i];
      }
      this->buffer[tid]  = cur;
      barrier(CLK_LOCAL_MEM_FENCE);
      barrier(CLK_LOCAL_MEM_FENCE);
      if (tid<32){
         this->buffer[tid]  = this->buffer[tid] + this->buffer[(tid + 32)];
      }
      barrier(CLK_LOCAL_MEM_FENCE);
      if (tid<16){
         this->buffer[tid]  = this->buffer[tid] + this->buffer[(tid + 16)];
      }
      barrier(CLK_LOCAL_MEM_FENCE);
      if (tid<8){
         this->buffer[tid]  = this->buffer[tid] + this->buffer[(tid + 8)];
      }
      barrier(CLK_LOCAL_MEM_FENCE);
      if (tid<4){
         this->buffer[tid]  = this->buffer[tid] + this->buffer[(tid + 4)];
      }
      barrier(CLK_LOCAL_MEM_FENCE);
      if (tid<2){
         this->buffer[tid]  = this->buffer[tid] + this->buffer[(tid + 2)];
      }
      barrier(CLK_LOCAL_MEM_FENCE);
      if (tid<1){
         this->buffer[tid]  = this->buffer[tid] + this->buffer[(tid + 1)];
      }
      barrier(CLK_LOCAL_MEM_FENCE);
      if (tid==0){
         this->res[get_group_id(0)]  = this->buffer[0];
      }
      return;
   }
}

奇妙なthis.

私のカーネルは正しい結果を生成し、適度に強力な Nvidia ハードウェアでは、Java の逐次合計よりも約 10 倍高速です。ただし、Radeon R9 280 では、パフォーマンスは単純な Java コードに匹敵します。

CodeXL を使用してカーネルのプロファイルを作成しました。MemUnitBusy はわずか 6% であることがわかります。なぜそんなに低いのですか？

score 0 · Accepted Answer

OpenCL に (直接) 障害があるわけではなく、aparapis バッファ管理に問題があることがわかりました。

aparapi なしでまったく同じカーネルを試してみましたが、パフォーマンスは良好です。使用するとすぐに悪くなりますCL_MEM_USE_HOST_PTRが、悲しいことに aparapi を使用する場合はこれが唯一のオプションです。数回の「ウォームアップ」を実行した後でも、AMD はそのオプションを使用してホストメモリをデバイスにコピーしていないようです。

opencl - Radeon で OpenCL (aparapi) の単純なリダクションが遅い

2 に答える 2

Related

Reference