N x N の整数の正方行列があります (便宜上、1 次元配列としてデバイスに格納されます)。
以下を実行する必要があるアルゴリズムを実装しています。
この正方形には 2N 個の反対角線があります。(反対角線は、上端から左端、右端から下端までの平行線です)
左上から始まり右下で終わる1つの反対角線を計算する各反復で、2N反復のforループが必要です。
各反復では、その反対角要素のすべての要素を並行して実行する必要があります。
各反対角は、前の反対角の値に基づいて計算されます。
では、CUDA でこの要件を持つスレッドにインデックスを付けるにはどうすればよいでしょうか?