私は現在ArrayFire(cudaではなくOpenCL)を使用していますが、非常に大きな(50M + 32ビット浮動小数点)ベクトルの(移動平均を計算するために)複数の並列1D畳み込みを実行する方法があるかどうか疑問に思っていました。いくつかの例を見てきましたが、最近のオープン ソース リリースでは、古い機能の一部が機能しません。ウィンドウのサイズは実際には大きい (1k-10k)。FFT メソッド (畳み込みの積) は、直接畳み込みよりも高速ですか?
私は現在ArrayFire(cudaではなくOpenCL)を使用していますが、非常に大きな(50M + 32ビット浮動小数点)ベクトルの(移動平均を計算するために)複数の並列1D畳み込みを実行する方法があるかどうか疑問に思っていました。いくつかの例を見てきましたが、最近のオープン ソース リリースでは、古い機能の一部が機能しません。ウィンドウのサイズは実際には大きい (1k-10k)。FFT メソッド (畳み込みの積) は、直接畳み込みよりも高速ですか?