私はCUDA並列プログラミングを学ぶ新人です。今、私はデバイスのグローバルメモリアクセスで混乱しています。ワープモデルと合体についてです。
いくつかのポイントがあります:
1つのブロックの糸は縦糸に分かれていると言われています。各ワープには最大32本のスレッドがあります。つまり、同じワープのこれらすべてのスレッドは、同じプロセッサで同時に実行されます。では、ハーフワープの感覚は何ですか?
1つのブロックの共有メモリに関しては、16のバンクに分割されます。バンクの競合を回避するために、複数のスレッドは、同じバンクに書き込むのではなく、同時に1つのバンクを読み取ることができます。これは正しい解釈ですか?
前もって感謝します!