opencl - OpenCL - ローカルメモリ効率

翻译自：https://stackoverflow.com/questions/17936910 2013-07-30T01:25:31.750

383 次

AMD GPU を使用しており、'Matrix Transpose' の例を実装したいと考えています。実装の 2 つのシナリオを想像してください。

両方のソリューションに最適なワークグループサイズを選択したとします。ちなみに、2 番目のアルゴリズムは、ローカルメモリへの共同書き込みを利用しています。

最後に、驚くべきことに、2 番目のシナリオは 1 番目のシナリオの 2 倍の速さであることが判明しました。なぜなのか理解できませんか？

1 つ目では、グローバルメモリとの間で 1 回の読み取りと 1 回の書き込みが行われ、2 つ目では、グローバルメモリ操作に加えて、ローカルメモリとの間で 1 回の読み取りと 1 回の書き込みが行われていることがわかります。それは速くなりますか？

この場合、誰かが私を助けてくれれば幸いです。

前もって感謝します：-）

1 に答える 1