0

Cusparseを使ってAX=Bを1440回解いています(Aは修正中、対角要素のみ、Bも違う)。ハンドルと分析オブジェクトを一度だけ作成しています。

私は cusparseScrsilu0() を使用しています。

ストリームを使用してこの操作を実行したい。1 つのハンドルを使用して複数のストリームを作成してこれを試しましたが、速度が向上しませんでした。

この問題から私を助けてください。

4

1 に答える 1

1

マルチストリーム設計により、CUDA カーネルを同時に実行できることが期待されます。ただし、マルチストリームが常に同時カーネル実行につながるとは限りません。カーネルは、特定の事前要求を満たす場合にのみ、同時に実行できます。最も重要な条件の 1 つは、各カーネルがハードウェア リソース (SM、テクスチャ、ローカル メモリなど) のごく一部しか占有していないことです。したがって、問題のサイズが十分に大きい場合、別のカーネルを同時に実行するための余分なリソースはありません。

于 2013-07-21T08:17:29.710 に答える