CUDAカーネル関数を呼び出すことの違いは何だろうと思っています
<<<BLOCK_NUM, THREAD_NUM>>>
と
<<<BLOCK_NUM, THREAD_NUM, THREAD_NUM * sizeof(float)>>> ?
CUDAカーネル関数を呼び出すことの違いは何だろうと思っています
<<<BLOCK_NUM, THREAD_NUM>>>
と
<<<BLOCK_NUM, THREAD_NUM, THREAD_NUM * sizeof(float)>>> ?