cuda - CUDA: テクスチャメモリは、コンピューティング機能 2.x 以降のアクセス時間を高速化するのにまだ役立ちますか?

Question

私は画像処理アプリを作成しており、ピクセルデータを非合体でフェッチする必要があります。

最初に、グローバルメモリを使用してアルゴリズムを実装しました。後で、テクスチャメモリを使用して再実装しました。驚いたことに、それは遅くなりました！cudaMalloc/text1Dfetch スタイルに問題があるのではないかと思い、cudaArray/tex2D に変更しました。何も変わっていません。

その後、シェーン・クックの「CUDA プログラミング」に出くわしました。そこで彼は次のように書いています。

コンピューティング 1.x ハードウェアにはキャッシュがないため、SM ごとに 6 ～ 8K のテクスチャメモリが、そのようなデバイスでデータを真にキャッシュする唯一の方法を提供します。ただし、Fermi とその最大 48 K の L1 キャッシュと最大 768 K の共有 L2 キャッシュの出現により、キャッシュプロパティのためのテクスチャメモリの使用はほとんど時代遅れになりました。前世代のコードとの下位互換性を確保するために、Fermi にはテクスチャキャッシュが引き続き存在します。

GeForce GT 620M (Fermi、compute cap. 2.1) を持っています。

そこでプロのアドバイスが欲しい！パフォーマンスを最適化しようとしているテクスチャキャッシュを使用して、テクスチャメモリをさらに掘り下げる必要がありますか? それとも、グローバルメモリと L1/L2 キャッシュに固執する必要がありますか?

cuda - CUDA: テクスチャ メモリは、コンピューティング機能 2.x 以降のアクセス時間を高速化するのにまだ役立ちますか?

1 に答える 1

Related

Reference

cuda - CUDA: テクスチャメモリは、コンピューティング機能 2.x 以降のアクセス時間を高速化するのにまだ役立ちますか?