ここで、奇妙な質問かもしれないと思います。
並列化されていない OpenCL での 1D FFT の高速実装を知っている人はいますか。
これが、このように実装されたバージョンが欲しい理由です。
次の処理を実装する現在のタスクがあります。
- 64 個の値を受け取ります。
- このデータに対して FFT を実行します
- FFT の出力に対してさらに分析を実行します。
- 約 6 つの値を生成して返します。
これは、入力のさまざまな値に対して約 100 万から 400 万回繰り返されます。入力の各セットは互いに独立しています。
1 回の操作では入力が大きすぎるため、入力をグループに分割するか、ある種のストリーミングを行うことにしました。
似たようなことをするサンプルコードを知っている人はいますか?
私は OpenCL の学習の初期段階にありますが、このタスクはもう少し進んでいます。どんな助けでも大歓迎です。