良いリファレンスガイドはほとんどありませんが、それでもスレッドとブロックの制限に混乱しています。1)基本的な質問:構成の実行におけるグリッドあたりのブロック数、つまり、グリッドはすべてのSMまたは単一のSMを消費しますか?
2)実際には、コンピューティング機能に従って、SMごとに8ブロックを使用できると言われていますが、なぜ時々、各次元で65535ブロックを構成できると言われているのでしょうか。8つのブロックが並行して実行されることは理解しましたが、65535ブロックを構成するにはどうすればよいでしょうか?それらはSMごとですか、それともグリッドごとですか?
3)総数 計算能力に応じたスレッドの数は1024/ブロックおよび1536/SMであり、各次元の2Dの場合、最大数はいくつですか。同時にいくつのスレッドを作成できますか?さらに構成した場合は、順番にいくつ作成できますか?合計は1024以内である必要がありますか?実際に確認しましたが、ブロックごとの制限を超えてスレッドを構成している場合がありますが、それでも機能していますが、なぜそうなのですか?3a)ケースa:GT200の場合、30個のSMがあり、各SMは最大8個のブロックを持つことができるため、合計240個のブロック(すべてのSMを考慮)があると結論付けられます。各ディメンションで構成できますか?3b)ケースb:また、私のプログラムの1つで、マトリックスの入力サイズは10,000 x 10,000であり、次の構成を実行しました。グリッドあたりのブロック数:1-いいえ。ブロックあたりのスレッド数:10,000、いいえ、それはまだ機能していました。ブロックあたりのスレッド数が制限を超えていますが、まだ機能しています。なぜ機能していたのか説明してもらえますか?そして、どの方法でスレッドとブロックが実行されますか?働く、