全部で 256 のスレッドを立ち上げています。単一のブロックを起動して実行すると、すべて正常に動作します。しかし、スレッドをそれぞれ (8x8 スレッド) で 2x2 ブロックで起動すると、カーネルが無限にループします。実際の問題は、私のカーネル コードが他のブロックからの部分的な結果を待っていることです。いくつかのテストを実行した後、ブロックがランダムな順序で起動され、順番に実行されているように見えました。
同じカーネルから起動された場合、CUDA ブロックは並行して実行されますか? 私が使用している GPU は、256 スレッドのみを起動しており、GTX 580 がそれらを処理できるため、制限ではありません。(16x16 スレッドの 1 つのブロック起動ですべてが正常に動作します) 実行順序を知る方法、または指定する方法はありますか?