CC2.0デバイスのグローバルメモリでアトミックFP追加操作を実行する必要があります。ワープで参照されるグローバルデータが整列された128バイトのセクターに適合する場合、これらの操作は並行して実行されますか、それとも一度に1つずつ実行されますか?
私の推測では、それらは並列であると思いますが、これはわかりません
よろしくGauthamGanapathy
アトミック操作は、実際には並行して行うことができないため、通常の操作よりも遅くなります。
おそらく起こることは、各追加が一度に 1 つずつ行われるということですが、実行はすべてのスレッドが完了するまで追加を超えて進行せず、コードの観点からは並列に見えます。
アクセスが結合されるかどうかはわかりませんが、アトミック操作による速度の低下は、おそらくメモリ アクセス速度の利点を上回るでしょう。
すでに述べたことを言い換えると、ATOMIC 操作は順番に実行されますが、他のすべての操作は現時点で停止されるため、同時に (並行して) 実行されたように見えます。注意すべき重要な点の 1 つは、アトミック操作はシーケンシャルですが、それらの ORDER は制御できないということです。