分離不可能なカーネルを使用した画像畳み込みの効率的なバージョンを実装する必要があります (したがって、CUDA の SDK は FFT の例だけに役立ちますが、カーネル サイズが大きい場合にのみうまく機能することが明確に述べられています)。
私の頭に浮かぶようにゼロから実装することは別として、私の必要性は、アプリオリに未知のサイズのマトリックスとカーネルで動作することです(それらは20.000x20.000として10x10になる可能性があります、私は単にそれを予測することはできません)
FFT の例に関する提案は何ですか? (これがあなたの最良の選択である場合は、それがどのように機能するかを理解するための良い点を教えてください)
2 番目の選択 (自分で畳み込みを手動で実装する) については、メモリの結合を最大化するための提案は何ですか?