アプリケーションは、list1 と list2 などの 2 つの整数の並べ替えられたリストを交差させます (交差を設定します)。
list1 の各要素には GPU スレッドが割り当てられ、バイナリ検索を実行して list2 に表示されるかどうかを確認します。このアプリケーションでは、大量のスレッドの分岐が発生することが容易にわかります。スレッドの発散を減らすための良いアプローチがあるのだろうか。このアプリケーションを実装するために CUDA を使用しています。
P-ary 探索と呼ばれるアプローチがあることは知っていますが、私の仕事は二分探索のスレッドの発散を減らすことです。また、スラストというライブラリがあることは知っていますが、発散を減らす試みはないようです。