私はCUDAプログラミングモデルとプログラミング全般に非常に慣れていないと思います。期待値最大化アルゴリズムを並列化しようとしています。コンピューティング機能 2.0 を持つ gtx 480 に取り組んでいます。最初は、デバイスが独自のスレッドを起動する理由はないと思っていましたが、もちろん、悲しいことに私は間違っていました。このpdfに出会いました。
http://docs.nvidia.com/cuda/pdf/CUDA_Dynamic_Parallelism_Programming_Guide.pdf
残念ながら、動的並列処理は、計算能力が 3.5 の最新かつ最高の GPU でのみ機能します。詳細に飛び込むことなく、動的並列処理に代わるものは何ですか? CPU EM アルゴリズムのループには多くの依存関係があり、高度にネストされているため、動的並列処理が魅力的な機能になっているようです。私の質問が意味をなすかどうかわからないので、説明が必要かどうか尋ねてください。
ありがとうございました!