CUDAでの私の経験では、2D / 3D空間キャッシングメカニズムと入力データをほとんどの場合2Dテクスチャとして配置できるため、CUDA配列参照を備えたテクスチャメモリを主に好みました。ここで、入力を線形配列と2Dテクスチャの両方としてモデル化できるという問題があります。(ちなみに、テクスチャメモリについて話しているときは、常に2D CUDA配列参照で使用することを意味します。)通常のグローバルメモリを使用する場合は、合体したアクセスパターンが非常に重要であることを知っています。ワープ内のスレッドが、ベースアドレスが64バイト境界に揃えられた連続アドレスを読み取る場合、ワープ全体を1回のメモリアクセス(合体アクセス)で処理できます。合体したアクセスパターンがテクスチャメモリにとっても重要かどうか疑問に思います。すべきではないと思います、テクスチャメモリの目的が異なるため。互いに近い2D/3Dアクセス用に最適化されており、私が知る限り、目的のピクセルと周囲の行と列のいくつかでテクスチャキャッシュを更新します。したがって、2Dテクスチャメモリ内の行への連続アクセスパターンは有利ではないと思います。対照的に、テクスチャキャッシュを周囲の行と列のデータで汚染し、パフォーマンスを低下させる可能性があります。とにかく、これはプログラミングガイドやその他のリソースを読んだ後で私が考えていることだけであり、それについて確認したいと思います。通常のグローバルメモリと同様に、テクスチャメモリにとって合体したアクセスパターンは重要ですか。互いに近い2D/3Dアクセス用に最適化されており、私が知る限り、目的のピクセルと周囲の行と列のいくつかでテクスチャキャッシュを更新します。したがって、2Dテクスチャメモリ内の行への連続アクセスパターンは有利ではないと思います。対照的に、テクスチャキャッシュを周囲の行と列のデータで汚染し、パフォーマンスを低下させる可能性があります。とにかく、これはプログラミングガイドやその他のリソースを読んだ後で私が考えていることだけであり、それについて確認したいと思います。通常のグローバルメモリと同様に、テクスチャメモリにとって合体したアクセスパターンは重要ですか。互いに近い2D/3Dアクセス用に最適化されており、私が知る限り、目的のピクセルと周囲の行と列のいくつかでテクスチャキャッシュを更新します。したがって、2Dテクスチャメモリ内の行への連続アクセスパターンは有利ではないと思います。対照的に、テクスチャキャッシュを周囲の行と列のデータで汚染し、パフォーマンスを低下させる可能性があります。とにかく、これはプログラミングガイドやその他のリソースを読んだ後で私が考えていることだけであり、それについて確認したいと思います。通常のグローバルメモリと同様に、テクスチャメモリにとって合体したアクセスパターンは重要ですか。対照的に、テクスチャキャッシュを周囲の行と列のデータで汚染し、パフォーマンスを低下させる可能性があります。とにかく、これはプログラミングガイドやその他のリソースを読んだ後で私が考えていることだけであり、それについて確認したいと思います。通常のグローバルメモリと同様に、テクスチャメモリにとって合体したアクセスパターンは重要ですか。対照的に、テクスチャキャッシュを周囲の行と列のデータで汚染し、パフォーマンスを低下させる可能性があります。とにかく、これはプログラミングガイドやその他のリソースを読んだ後で私が考えていることだけであり、それについて確認したいと思います。通常のグローバルメモリと同様に、テクスチャメモリにとって合体したアクセスパターンは重要ですか。